Categories
程式開發

難倒全球最強計算機視覺模型,ObjectNet讓識別準確率從90%下降至50%


在過去的十年裡,對象識別模型取得了長足的進步,但在精度方面,還有很長的路要走。如今的計算機視覺模型已經學會如何準確識別出照片中的對象,甚至能夠在某些數據集中獲得優於人類的識別表現。但是,這類對象檢測系統在真實場景中的表現卻仍然不夠理想。為了解決上述問題,近日,麻省理工學院和IBM組成的聯合團隊發布了一個最新的對象識別數據集—ObjectNet,旨在說明機器學習算法與人類之間的性能差距。

MIT和IBM提出最新數據集ObjectNet

與許多現有的數據集(現有的數據集往往直接提取Flickr及其他社交媒體網站上拍攝的照片)不同,ObjectNet的數據樣本是由自由職業者提供的付費照片。照片中的橘子、香蕉和衣服等物體被傾斜在一邊,以奇怪的角度拍攝,並展示在雜亂的房間裡。即使是能夠在ImageNet上獲得97%準確率的目前最先進對象檢測模型,在“迎戰”ObjectNet時,準確率也會迅猛下降至50%— 55%。

ObjectNet有一種新型的視覺數據集,它藉鑑了其他科學領域的控制思想。它甚至沒有培訓集,只提供測試集以加快流程。與其他常規圖像數據集相比,ObjectNet不包含訓練圖像。大多數數據集將自身素材分為兩個部分,分別為模型訓練數據,外加性能測試數據。但是,訓練集與測試集之間往往具有某種微妙的關聯或者說相似之處,在某些情況下無法進行精準的準確性驗證。

麻省理工學院計算機科學與人工智能實驗室(CSAIL)以及人腦、意識與機器中心(CBMM)研究科學家Boris Katz介紹,整個數據集從設計構思、標準紀數據收入流程外加應用程序開發,總共耗費了三年時間。

研究合著者,麻省理工學院電氣工程與計算機科學系研究生David Mayo表示,“以偏見受控為前提收集數據是一項相當棘手的工作。我們還得不斷進行實驗,確保我們提供的指示清晰明了,足以引導拍攝者們正確完成拍攝。”

擺在前面的一個根本性難題是,很少有人願意分享符合ObjectNet要求的照片。為此,研究團隊通過Amazon Mechanical Turk僱傭了多位自由職業者,這些自由職業者會從應用程序上收到分配的任務,諸如,收到的“動畫說明”會告訴他們如何分配物品的擺放位置、拍攝的角度,以及是否將對象擺放在廚房、浴室、臥室、客廳等。在ObjectNet中收集的圖像有意地在新的背景上顯示來自不同視角的對象(物體)。

通過這種方式,研究人員希望消除三種常見的偏見:正面朝上、在相對統一的位置展示核心對象,以及在相對統一的背景下展示核心對象——比如廚房裡堆起的杯盤。

研究論文聯合作者,CSAIL與CBMM研究員Andrei Barbu指出,如果希望了解某種算法在現實世界中的表現,最好是利用無偏見且模型以往從未見過的圖像進行測試。

數據的實際收集又額外耗費了一年。在數據收集最開始的一年裡,因為不滿足要求,這些自由職業者提供的照片中有一半不得不被丟棄。一些“錯誤”包括,照片被人為加上了標籤,變幻背景或者調整角度等。

對象識別仍是一個未被攻克的難題

ObjectNet建立在今年早些時候由Facebook AI研究人員發布的一項研究的基礎上,該研究發現,識別家用物品的計算機視覺通常更適合高收入家庭的人。結果顯示,六種受歡迎的系統對最富裕家庭的(物品)識別效果比對最貧窮家庭的識別效果好10%到20%,且相較北美和歐洲,它們更容易識別北美和歐洲家庭中的物品。

深度學習利用人工“神經元”層從大規模原始數據當中尋找模式。在利用數百甚至數千個示例完成訓練之後,深度學習模型即可學會從照片中識別出椅子等物體。但,即使是包含數百萬張圖像的原有數據集,也不可能從各個角度及方向展示對象的全貌。正因為如此,深度學習模型在現實場景的對象識別當中才會引發種種問題。

“我們創建這套數據集的目的,在於提醒大家對象識別仍是個未被攻克的難題“,Katz表示。據悉,Katz和他的同事們將在今年12月8日-14日舉行的神經信息處理系統大會(NeurIPS)上公佈ObjectNet項目及其主要成果。

Venturebea 的文章評論稱,MIT和IBM提出的ObjectNet表明人工智能在現實世界中的對象檢測方面仍“苦苦掙扎”。

Object Net VS ImageNet

Object Net 數據集以眾包照片數據庫ImageNet為基礎。其樣本量為50,000個圖像測試集,測試集大小與ImageNet基本持平,具有旋轉、背景和視點控制等高級功能。它有313個對像類和113個重疊的ImageNet。

下圖,在ImageNet(左)中,只記錄了以下易於理解的照片。另一方面,在ObjectNet中(右圖),一張椅子被放置在一個雜亂的房間中,椅子的背面被拍照,或者是一張人類難以判斷的照片。

難倒全球最強計算機視覺模型,ObjectNet讓識別準確率從90%下降至50% 1

圖像識別模型利用數據集通過深度學習來提高圖像識別精度。然而,即使是在ImageNet這樣的大型數據集中,所包含的圖像也存在盲點,即不存在像上面例子中那樣的“椅背”或“椅子倒了”的圖像。因此,使用ImageNet等傳統數據集學習的圖像識別模型在遇到“椅背”或“倒椅子”等不規則情況時,無法準確識別圖像。

在具體的識別成績方面,研究人員們在ObjectNet上測試各類先進計算機視覺模型發現最終成績相較於ImageNet下降了40%到45%。研究人員表示,從結果來看,物體檢測器仍然未能理解物體的三維屬性,特別是能夠在新環境下旋轉並移動這一前提性事實。研究論文合著者、IBM公司研究員Dan GUtfreund也提到,“現代物體檢測器在架構層面並沒有引入這些基本概念。”

為了證明ObjectNet數據集的識別成績下滑確實來自對特定對象的觀看角度與入鏡方式,研究人員允許模型訓練ObjectNet中一半的數據,然後再對其餘的一半進行測試。這種做法往往會提高性能。但ObjectNet用事實證明,這種辦法在它身上仍然行不通。模型性能只是稍有改善,這表明對象檢測器尚未完全理解物體在現實世界中的存在方式。

但研究人員們指出,進一步提升ObjectNet的體量以及增加視角與方向等因素的數量,並不一定能帶來更好的結果。 ObjectNet項目的目標,在於激勵研究人員們開發出下一波革命性技術。

“人們為這些檢測器提供越來越多的數據,但收益卻在逐漸降低。我們不可能在任意構圖形式下,結合任意背景通過任意角度觀察對象“。 Katz表示,”我們希望這套新的數據集能夠催生出更強大的計算機視覺,以確保它們不會在現實世界中犯下令人難以理解的錯誤。”

論文: https : //objectnet.dev/objectnet-a-large-scale-bias-control-dataset-for-pushing-the-limits-of-object-recognition-models.pdf

下載數據集: https : //objectnet.dev/download.html

APIhttps//github.com/dmayo/ObjectNet-API