Categories
程式開發

CVPR 2020論文解讀:阿里達摩院首次實現3D物體檢測精度與速度兼得


近期,阿里巴巴達摩院的一篇論文入選計算機視覺頂會CVPR 2020,該論文提出了一個通用、高性能的自動駕駛檢測器,首次實現3D物體檢測精度與速度的兼得,有效提升自動駕駛系統安全性能。

CVPR 2020論文解讀:阿里達摩院首次實現3D物體檢測精度與速度兼得 1

3D目標檢測需輸出物體類別及在三維空間中的長寬高、旋轉角等信息

與普通的2D圖像識別應用不同,自動駕駛系統對精度和速度的要求更高,檢測器不僅需要快速識別周圍環境的物體,還要對物體在三維空間中的位置做精准定位。然而,目前主流的單階段檢測器和兩階段檢測器均無法平衡檢測精度和速度,這極大地限制了自動駕駛安全性能。

此次,達摩院在論文中提出了新的思路即將兩階段檢測器中對特徵進行細粒度刻畫的方法集成到單階段檢測器。具體來說,達摩院在訓練中利用一個輔助網絡將單階段檢測器中的體素特徵轉化為點級特徵,並施加一定的監督信號,同時在模型推理過程中輔助網絡無需參與計算,因此,在保障速度的同時又提高了檢測精度。

以下是第一作者Chenhang He對該論文做出的解讀:

1.背景

目標檢測是計算機視覺領域的傳統任務,與圖像識別不同,目標檢測不僅需要識別出圖像上存在的物體,給出對應的類別,還需要將該物體通過Bounding box進行定位。根據目標檢測需要輸出結果的不同,一般將使用RGB圖像進行目標檢測,輸出物體類別和在圖像上2D bounding box的方式稱為2D目標檢測。而將使用RGB圖像、RGB-D深度圖像和激光點雲,輸出物體類別及在三維空間中的長寬高、旋轉角等信息的檢測稱為3D目標檢測。

CVPR 2020論文解讀:阿里達摩院首次實現3D物體檢測精度與速度兼得 2

從點雲數據進行3D目標檢測是自動駕駛(AV)系統中的的關鍵組件。與僅從圖像平面估計2D邊界框的普通2D目標檢測不同,AV需要從現實世界估計更具信息量的3D邊界框,以完成諸如路徑規劃和避免碰撞之類的高級任務。這激發了最近出現的3D目標檢測方法,該方法應用卷積神經網絡(CNN)處理來自高端LiDAR傳感器的點雲數據。

目前基於點雲的3D物體檢測主要有兩種架構:

1、單階段檢測器(single-stage): 將點雲編碼成體素特徵(voxel feature), 並用3D CNN直接預測物體框, 速度快但是由於點雲在CNN中被解構, 對物體的結構感知能力差, 所以精度略低。

2、兩階段檢測器(two-stage): 首先用PointNet提取點級特徵, 並利用候選區域池化點雲(Pooling from point cloud) 以獲得精細特徵. 通常能達到很高的精度但速度很慢。

CVPR 2020論文解讀:阿里達摩院首次實現3D物體檢測精度與速度兼得 3

2.方法

目前業界主要以單階段檢測器為主,這樣能保證檢測器能高效地在實時系統上進行。我們提出的方案將兩階段檢測器中對特徵進行細粒度刻畫的思想移植到單階段檢測中,通過在訓練中利用一個輔助網絡將單階段檢測器中的體素特徵轉化為點級特徵,並施加一定的監督信號,從而使得卷積特徵也具有結構感知能力,進而提高檢測精度。而在做模型推斷時,輔助網絡並不參與計算(detached),進而保證了單階段檢測器的檢測效率。另外我們提出一個工程上的改進,Part-sensitive Warping (PSWarp), 用於處理單階段檢測器中存在的 “框-置信度-不匹配” 問題。

CVPR 2020論文解讀:阿里達摩院首次實現3D物體檢測精度與速度兼得 4

主體網絡

用於部署的檢測器, 即推斷網絡, 由一個骨幹網絡和檢測頭組成。骨幹網絡用3D的稀疏網絡實現,用於提取含有高語義的體素特徵。檢測頭將體素特徵壓縮成鳥瞰圖表示,並在上面運行2D全卷積網絡來預測3D物體框。

輔助網絡

在訓練階段,我們提出一個輔助網絡來抽取骨幹網絡中間層的捲積特徵,並將這些特徵轉化成點級特徵(point-wise feature)。在實現上,我們將捲積特徵中的非零信號映射到原始的點雲空間中, 然後在每個點上進行插值,這樣我們就能獲取卷積特徵的點級表示。令 {():j=0,…,M} 為卷積特徵在空間中的表示, {:i=0,…,N}為原始點雲, 則卷積特徵在原始點上的表示 等於

CVPR 2020論文解讀:阿里達摩院首次實現3D物體檢測精度與速度兼得 5

輔助任務

我們提出兩種基於點級特徵的監督策略來幫助卷積特徵獲得很好的結構感知力, 一個前景分割任務, 一個中心點回歸任務。

CVPR 2020論文解讀:阿里達摩院首次實現3D物體檢測精度與速度兼得 6

具體來說,相比於PointNet特徵提取器(a), 卷積網絡中的捲積操作和下採樣會造成點雲結構的破壞 (b)使得特徵對物體的邊界與內部結構不敏感。我們利用分割任務來保證部分卷積特徵在下採樣時不會被背景特徵影響 ©,從而加強對邊界的感知。我們利用中心點回歸任務來加強卷積特徵對物體內部結構的感知能力(d),使得在少量點的情況下也能合理的推斷出物體的潛在大小,形狀。我們使用focal loss 和smooth-l1 對分割任務與中心回歸任務分辨進行優化。

3.工程上的改進

CVPR 2020論文解讀:阿里達摩院首次實現3D物體檢測精度與速度兼得 7

在單階段檢測中, feature map和anchor的對齊問題是普遍存在的問題, 這樣會導致預測出來的邊界框的定位質量與置信度不匹配,這會影響在後處理階段(NMS)時, 高置信度但低定位質量的框被保留, 而定位質量高卻置信度低的框被丟棄。在two-stage的目標檢測算法中,RPN提取proposal,然後會在feature map上對應的的位置提取特徵(roi-pooling或者roi-align),這個時候新的特徵和對應的proposal是對齊的。我們提出了一個基於PSRoIAlign 的改進,Part-sensitive Warping (PSWarp), 用來對預測框進行重打分。

如上圖, 我們首先修改最後的分類層以生成K個部分敏感的特徵圖,用{X_k:k = 1,2,…,K}表示,每個圖都編碼對象的特定部分的信息。例如,在K = 4的情況下,會生成 {左上,右上,左下,右下} 四個局部敏感的特徵圖。同時,我們將每個預測邊界框劃分為K個子窗口,然後選擇每個子窗口的中心位置作為採樣點。這樣,我們可以生成K個採樣網格{S^k:k = 1,2,…,K},每個採樣網格都與該局部對應的特徵圖相關聯。如圖所示,我們利用採樣器, 用生成的採樣網格在對應的局部敏感特徵圖上進行採樣,生成對齊好的特徵圖。最終能反映置信度的特徵圖則是K個對齊好特徵圖的平均。

4. 效果

CVPR 2020論文解讀:阿里達摩院首次實現3D物體檢測精度與速度兼得 8

我們提出的方法(黑色) 在KITTI數據庫上的PR Curve, 其中實線為兩階段方法, 虛線為單階段方法。可以看到我們作為單階段方法能夠達到兩階段方法才能達到的精度。

CVPR 2020論文解讀:阿里達摩院首次實現3D物體檢測精度與速度兼得 9

在KITTI 鳥瞰(BEV) 和 3D 測試集的效果。優點是在保持精度的同時,不增加額外的計算量,能達到25FPS 的檢測速度。

CVPR 2020論文解讀:阿里達摩院首次實現3D物體檢測精度與速度兼得 10CVPR 2020論文解讀:阿里達摩院首次實現3D物體檢測精度與速度兼得 11CVPR 2020論文解讀:阿里達摩院首次實現3D物體檢測精度與速度兼得 12

作者介紹:

第一作者為達摩院研究實習生Chenhang He,其他作者分別分別為達摩院高級研究員、IEEE Fellow華先勝,達摩院高級研究員、香港理工大學電子計算學系講座教授、IEEE Fellow張磊,達摩院資深算法專家黃建強及達摩院研究實習生Hui Zeng。

注:論文地址暫未公開,InfoQ將持續跟進並更新更多詳細內容。