2011年11月24日 星期四

ARM Instruction Set 初步心得

之前看了一點點 ARM 的東西, 做個記錄。我完全不熟這個領域, 下面的心得可能會有許多錯誤。

《Tonc: Whirlwind Tour of ARM Assembly》這篇超級詳細地從頭教怎麼寫 ARM assembly code。作者原本的用意是教人寫 GBA, 而 GBA 底層是跑 ARM, 所以會需要寫 ARM assembly code 最佳化。

看完這篇後再來看大方向的觀念《ARM架構》, 就很有感覺了。對一個大學時代只寫過一點 x86 assembly, 只在課本上看 RISC 的人來說, 讓我比較印象深刻的是

  • ARM 的指令相當精簡, 很容易懂。概念上來看, 硬體成本應該會較低較省電。
  • 為減少指令過於精簡不方便使用或效率差的負擔, 強化了一些功能。又一個好例子可用來說明系統設計是一連串的取捨
  • ARM 的 shift 沒負擔, 透過 Barrel shifter 可同時在 OP2 做 shift / rotate 等操作。
  • ARM 的所有指令都有另留幾個 bit 以支援 conditional code, 藉此減少需要猜測 branch 的負擔。猜錯 branch 得另外重取要用到的指令和資料, 時間成本似乎滿大的。這裡借用《Tonc: Whirlwind Tour of ARM Assembly》實作 max() 的範例程式表示什麼是 conditional code:
@ // r2= max(r0, r1):
@ r2= r0>=r1 ? r0 : r1;

@ Traditional code
    cmp     r0, r1
    blt .Lbmax      @ r1>r0: jump to r1=higher code
    mov     r2, r0  @ r0 is higher
    b   .Lrest      @ skip r1=higher code
.Lbmax:
    mov     r2, r1  @ r1 is higher
.Lrest:
    ...             @ rest of code
    
@ With conditionals; much cleaner
    cmp     r0, r1
    movge   r2, r0  @ r0 is higher
    movlt   r2, r1  @ r1 is higher
    ...             @ rest of code
  • 由於 ARM Instruction Set 希望全部指令大小一樣是 32 bits, 又拿了一些 bits 給 Barrel shifter 和 conditional code 用, 所以能放常數的 bits 又更少了。也不像 x86 那樣指令大小不同, 可以看 OP code 決定多一個 cycle 從下個 cycle 取出常數。所以, 只能讀一個 byte 大小的數字, 再配合 Barrel shifter 改變數值。所以, 可以讀入 0x1C000000, 0x001C0000, 但無法讀入 0x010C0000。有這種需求時, 得拆多個指令組起來, 或是放到附近的 constant pool。
  • 部份裝置主要讀取指令的匯流排寬度是 16 bits (如 GBA), 所以 32 bits 指令得花兩個 cycle 才能讀完。於是有 Thumb 的設計, 指令精簡為 16 bits, 不過也就沒有 conditional code 等加速的空間。但 Thumb 也有機會讓全部的程式變更小, 對嵌入式系統來說, 更小的執行檔表示可省下更多記憶體存執行檔, 藉此減少硬體成本。開發者可混用 ARM 和 Thumb, 達到時間和空間的平衡點。

沒有留言:

張貼留言

在 Fedora 下裝 id-utils

Fedora 似乎因為執行檔撞名,而沒有提供 id-utils 的套件 ,但這是使用 gj 的必要套件,只好自己編。從官網抓好 tarball ,解開來編譯 (./configure && make)就是了。 但編譯後會遇到錯誤: ./stdio.h:10...