Categories
程式開發

研究人員研發出新AI芯片,可在納秒內完成圖像識別任務


維也納大學的工程師團隊帶來了AI芯片的新玩法。他們利用傳感器人工神經網絡大大提高了處理圖片的效率,可在納秒內完成圖像識別任務。他們的設計思路是將一些計算任務轉移到計算機系統外部邊緣的感知設備上,這樣可以減少不必要的數據移動​​,進而產生了這種機器視覺的傳感器內計算研究成果。

近日,維也納大學研發出了一種新型的圖像傳感器設備,它自帶人工神經網絡,可以同時捕獲和識別光學圖像,無需再將信息轉換成數字格式即可快速處理信息。

視覺是我們最重要的感官之一。在過去的十年中,受生物學啟發的機器視覺得到了迅速的發展,人工系統可以通過傳感機器從圖像和視頻中獲得有價值的信息,進而有了“看到”的能力,雖然這種能力比人類的視覺能力還是差了很遠。 Mennel等人在《自然》雜誌上刊登了一種新的視覺系統研究成果,該系統設計模仿了人腦對信息的處理方式,只用納秒級的時間就能對簡單圖像進行分類。

現代圖像傳感器,如數碼相機中的圖像傳感器,是基於半導體(固態)技術,於上世紀70年代初發明的;它們主要分為兩種類型,即電荷耦合器件和有源像素傳感器。這些傳感器可以從環境中準確地捕獲視覺信息,但同時也會產生大量冗餘數據。這些海量的光學信息通常被轉換成數字電子格式,然後再傳遞給計算單元進行圖像處理。

傳感器和處理單元之間大量數據的移動往往會導致延遲和高功耗問題。 隨著成像速率和像素數量的增長,再加上帶寬限制,把所有數據都發送到雲端,讓雲計算機集中處理又不能滿足實時快速處理和決策的需要。這恰恰也是現在無人駕駛汽車、機器人、工業製造等對延遲敏感的領域所不能接受的。

優化之後的解決方案是將一些計算任務轉移到計算機系統外部邊緣的感知設備上,這樣可以減少不必要的數據移動​​。由於傳感器通常產生的都是模擬輸出,而模擬到數字的轉換既耗時又耗能,因此模擬處理比數字處理更可取。

研究人員研發出新AI芯片,可在納秒內完成圖像識別任務 1

圖1 輸入信息在視覺傳感器內進行計算,實現智能、高效的預處理

傳統的人工智能(AI)視覺傳感器如圖(a)所示,信號在光響應傳感器上進行收集,通過模數轉換器(ADC)將模擬信號轉換為數字信號,放大後作為輸入提供給外部的人工神經網絡(ANN),再經過參數調優訓練神經網絡,可以用來執行諸如圖像分類等任務。

神經網絡的輸入層接收編碼簡單物理元素的信號(這裡用點和線表示),在隨後的層中,這些信號被優化為中級特徵(簡單的形狀),最後在輸出層(3D形狀)形成精細的圖像。整體的響應可能是比較緩慢和耗能的。

Mennel等人研發的視覺系統如圖(b)所示,在這個系統中,芯片上的相互連接的傳感器(正方形)不僅可以收集信號,而且還可以作為一個神經網絡來識別簡單的特徵,從而減少傳感器和外部電路之間冗餘數據的移動。

Mennel和同事們在他們的圖像傳感器中直接實現了一個人工神經網絡。在芯片上,他們構建了一個光二極管網絡,這些光二極管是微小的光敏元件,每一個都由幾層二硒化鎢原子組成。二硒化鎢對光的響應可以通過改變施加的電壓來增加或減少,因此每個二極管的靈敏度可以單獨調整。這就將光敏傳感器網絡轉變為了一個神經網絡(圖1b),並使其能夠執行簡單的計算任務。改變光電二極管的光響應度,也就會改變網絡中的連接權重。因此,該裝置其實是結合了光學傳感和神經形態計算。

作者將光電二極管排列成一個9像素的正方形陣列,每個像素有3個二極管。當一個圖像被投射到芯片上時,各種二極管電流被產生、合併和讀取。硬件陣列提供了一種模擬計算形式:每個光電二極管都會產生與入射光強度成比例的輸出電流,並且根據基爾霍夫定律(電路中電流的基本規則),將沿行或列得出的電流相加。

然後就可以訓練該陣列來執行相應任務了。陣列產生的電流和預測的電流之間的差異(如果陣列對給定任務的圖像做出正確的響應,就會產生電流)將在芯片外進行分析,並用於調整下一個訓練週期的權重。這個學習階段會消耗時間和計算資源,但是一旦經過訓練,芯片就能快速完成設定的任務。

利用不同的神經網絡算法,作者演示了兩種神經形態功能。第一個是分類:他們用3×3像素陣列,將一幅圖像分成三個類中的一個,這三個類對應於三個簡化的字母,從而在納秒內識別出它是哪個字母。這個相對簡單的任務只是一個概念的證明,如果按比例增加陣列的大小,它可以擴展到識別更複雜的圖像。

第二個例子是自動編碼:即使在存在信號噪聲的情況下,傳感器內的計算陣列也可以通過學習圖像的關鍵特徵,來生成經過處理的圖像的簡化表示。編碼後的版本只包含最基本的信息,但可以通過解碼來重建接近原始的圖像。

但在這項技術實際落地應用之前,還有很多工作要做。首先,用於自動駕駛汽車和機器人的神經形態視覺系統,需要在三維空間和廣闊的視野中捕捉動態圖像和視頻。而目前使用的圖像捕獲技術通常是將三維現實世界轉換為二維信息,丟失掉運動信息和深度。現有圖像傳感器陣列的平面形狀也制約著廣角相機的發展。

其次,該系統的傳感器設備很難在昏暗的光線下成像,需要重新設計,以改善半導體的光吸收能力,並增加可檢測到的光強範圍。此外,該設計要求高電壓,功耗大;相比之下,在生物神經網絡中,每次操作的能量消耗在亞焦耳級(10 -15至10 -13焦耳)。充分擴大對紫外線和紅外光的響應範圍,捕捉可見光光譜中得不到的信息,對後續技術優化也會很有幫助。

還有一點,研究使用的薄半導體很難在大範圍內均勻生產,而且很難加工處理,因此它們很難與硅電子器件集成,比如用於讀出或反饋控制的外部電路。使用這些傳感器的設備的速度和能源效率將不是由圖像捕獲過程決定的,而是由傳感器和外部電路之間的數據移動​​決定的。此外,雖然傳感器內的計算單元在模擬域收集和計算數據,減少了模擬到數字的轉換,但外圍電路仍然受到其他固有延遲的影響。傳感器和外部電路將需要協同開發,以減少整個系統的延遲。

Mennel及其同事的“傳感器內計算系統”應該會激發業內對人工智能(AI)硬件的進一步研究。一些公司已經開發了基於矽電子的人工智能視覺芯片,但這些芯片固有的數字體系架構往往帶有延遲和電力效率問題。

從更廣泛意義來講,該研究團隊的策略並不局限於視覺系統。它可以擴展到其他物理輸入,如聽覺、觸覺、熱感或嗅覺感知等。這種智能係統的發展,加上5G高速無線網絡的到來,應該會讓未來的實時(低延遲)邊緣計算成為可能。

延伸閱讀:

https://www.nature.com/articles/d41586-020-00592-6