Categories
程式開發

ACM MM2020 | 一個卡通人臉識別的基準數據集


導讀

通過人臉識別技術對視頻中的人物信息進行結構化分析,目前已在愛奇藝公司的多個產品中應用,例如“奇觀”、“只看他”等,給用戶帶來了良好的交互體驗。為了推動了人臉識別技術的快速發展,愛奇藝在2018年2019年相繼舉辦了多模態人物識別競賽。
與此同時,學術界、工業界對卡通人物識別領域的研究較少,為了促進相關研究和帶來良好的用戶體驗,本文提出了iCartoonFace卡通識別數據集和對相關算法進行了研究,並成功落地到愛奇藝“奇觀”、“逗芽”等產品中。

摘要

本文提出了一個卡通人臉識別的基準數據集iCartoonFace,並設計了卡通和真人多任務域自適應策略來提高卡通人臉識別的性能。

論文鏈接:https://arxiv.org/pdf/1907.13394.pdf

背景

近年來,伴隨著卡通產業的迅猛發展,卡通視頻呈現出爆炸性增長。而實現對這些卡通視頻智能理解的第一步就是需要識別出這些視頻裡面的卡通人物身份信息。同時伴隨著人臉識別技術的發展,人物識別精度大幅提升,在Labeled Faces in the Wild(LFW)等圖片數據集上,人臉識別精度甚至超過了人類的識別能力。然而,對卡通人物身份的識別,卻鮮有研究,相關的數據集也比較少,如下表1。對於深度學習來說,這些已有的卡通識別數據集存在著數據量較小、噪聲比例較大的問題。因此構建一個大規模、高質量的卡通識別數據集,並對卡通人物身份信息進行識別,則至關重要。

ACM MM2020 | 一個卡通人臉識別的基準數據集 1

表1 卡通人物識別相關數據集對比

iCartoonFace數據集

1) 數據集構建

為了減輕標註人工的工作量,我們設計了一種半自動數據集構建框架來得到iCartoonFace數據集,如下圖1。我們的框架可以分為以下三個階段:

  • 分層數據收集;從卡通專輯到卡通人物名稱,再到卡通人物圖片依次獲取;
  • 數據過濾過程:利用卡通人臉檢測、特徵提取器、特徵聚類等進行噪聲數據過濾,其中特徵提取器隨著標註數據的增多而性能不斷增強;
  • Q/A問答:標註人員根據特徵聚類的結果,回答兩張圖片是否是同一個人物。

ACM MM2020 | 一個卡通人臉識別的基準數據集 2

圖1 半自動數據集構建框架

2)數據集統計信息

iCartoonFace識別數據集是一個大規模、高質量的卡通人物身份識別數據集,如圖2。 iCartoonFace識別數據集的統計特性如下:

  • 大規模:iCartoonFace識別數據集包含5013個卡通人物、389,678張圖片,來源於1,302卡通專輯,是已知目前最大的手工標註卡通人物身份識別數據集;
  • 高質量:數據集手工標註完成之後,我們採用交叉驗證的方式保證數據集標註錯誤率在5%以內。所有圖片的分辨率高於100×100,超過65%的圖片分辨率高於200×200;
  • 多樣性和挑戰性:從圖3可以看到,不同的卡通人物具有非常相近的外形特徵,同一個的卡通人物由於的表情、遮擋、角度等影響導致外形具有非常大的差異性。

ACM MM2020 | 一個卡通人臉識別的基準數據集 3

圖2 iCartoonFace識別數據集統計信息

3)數據集挑戰性

給定一張Probe集中的照片和至少包含一張相同卡通人物身份圖片的Gallery集,算法需要根據與給定圖片中卡通人物身份相似度對Gallery集中所有圖片進行排序。具體來說,Probe集中包含N個卡通人物、每個卡通人物有M張照片。對於每個卡通人物的M張照片,每次選取一張圖片作為probe照片,然後把剩餘的M-1張,再單獨每一張和distractors一起組成Gallery集,然後進行比對,然後計算rank1精度。經過N中號(M-1)次比對後,得到的平均rank1精度作為本次任務的評價指標。

在iCartoonFace卡通識別數據集中,有四類代表性的挑戰,如圖3所示:

a. 類間相似度高: 來自不同人物ID的兩張圖片外觀看起來非常相似;

b. 視角變化: 同一個人物有不同角度的圖片;

c. 遮擋問題: 人物面部會受到場景中其他對象的遮擋;

d. 光線變化: 所有的這些識別問題中遇到的問題,都需要我們的識別算法具有足夠的魯棒性。

ACM MM2020 | 一個卡通人臉識別的基準數據集 4

圖3 iCartoonFace卡通識別數據集代表性的挑戰

我們的方法

我們提出了卡通和真人多人物訓練框架如下圖4所示,主要分為分類損失函數、未知身份拒絕損失函數和域遷移損失函數。

ACM MM2020 | 一個卡通人臉識別的基準數據集 5

圖4 卡通和真人多任務訓練框架

  • 分類損失函數: 主要用來對卡通臉和真人臉進行分類,典型的表達式如下:

    ACM MM2020 | 一個卡通人臉識別的基準數據集 6

  • 未知身份拒絕損失函數: 在不同域之間進行無監督正則化投影,表達式如下:

    ACM MM2020 | 一個卡通人臉識別的基準數據集 7

  • 域遷移損失函數: 用來減低卡通和真人域之間的差異性,對他們的相關性進行約束,表達式如下:

    ACM MM2020 | 一個卡通人臉識別的基準數據集 8

實驗分析

1)哪種算法更適合卡通識別?

我們比較了SoftMax、SphereFace、CosFace、ArcFace、ArcFace+FL幾種算法的性能如下圖5所示。結果表明,ArcFace+FL的性能相比其他算法無論是在低Rank還是高Rank下都更優。

ACM MM2020 | 一個卡通人臉識別的基準數據集 9

圖5 五種算法的CMC曲線圖

2)人臉識別的信息是否有助於卡通識別?

我們測試了對於卡通檢測和卡通識別兩個任務,人臉信息是否對卡通的檢測識別有幫助。從表2可以發現,與F-ArcFace(即ArcFace+FL)相比,本文提出的方法的人臉識別性能將略有提高,圖6同樣驗證了加入人臉識別的數據後卡通檢測的性能也能得到提高。

ACM MM2020 | 一個卡通人臉識別的基準數據集 10

圖6 卡通檢測兩種算法的PR曲線

ACM MM2020 | 一個卡通人臉識別的基準數據集 11

表2 算法的性能對照表

3)對於卡通識別來說上下文信息是否有用?

卡通臉是識別一個卡通人物身份的最主要區別部分。然而,在某些情況下僅僅依靠卡通人臉不足以區分不同的卡通人物。我們測試了算法在卡通人臉基礎上擴充不同比例下的性能如圖7所示,圖中表示了在包含更多的上下文信息下會獲得更高的識別性能。

ACM MM2020 | 一個卡通人臉識別的基準數據集 12

圖7 在不同擴充比例下的CMC曲線

總結展望

愛奇藝開放了目前全球最大的手工標註卡通人物檢測數據集與識別數據集iCartoonFace,包含超過5000個卡通人物、40萬張以上高質量實景圖片,這使得對卡通人臉識別技術的研究擁有了強有力的數據土壤。針對卡通人物的特性進行更加深入的模型優化研究,設計卡通真人多任務學習框架,可以有效地提高卡通人物識別性能。未來,加深對卡通人物識別能力的研究,設計更加魯棒性的算法,從而可以處理遮擋、側臉、模糊、變身等多種情況,使得識別的人數更多、可識別的樣式更豐富,是一個非常有挑戰性的問題。

對卡通人物進行識別具有廣泛的應用場景,不僅可以用於視頻理解對視頻進行結構化分析,還可以在智能剪輯創作、圖片搜索、人物審核、廣告等場景中得到廣泛應用。例如圖片搜索中加入卡通人物身份特徵,使得搜索更加準確,通過分析視頻中卡通人物的身份點位,可以提供給創作者進行智能剪輯,也可以用來對惡搞的諷刺漫畫或者卡通風格人物進行審核辨識。

參考文獻

[1] 鄭毅等。 “卡通人臉識別:基準數據集。” arXiv(2019):arXiv-1907。

[2] 劉元流,等。 “愛奇藝名人視頻識別挑戰賽。” 第27屆ACM國際多媒體會議論文集。 2019。

[3] 劉元流,等。 “ iqiyi-vid:用於多模式人員識別的大型數據集。” arXiv預印本arXiv:1811.07548(2018)。

[4] Brendan F Klare,Serhat S Bucak,Anil K Jain和Tayfun Akgul。 2012年。邁向自動漫畫識別。 2012年,第五屆IAPR國際生物識別技術會議(ICB)。 139–146。

[5] Bahri Abaci和Tayfun Akgul。 2015。將漫畫與照片匹配。 信號,圖像和視頻處理9,1,(2015),295-303。

[6] Jing Huo, Wenbin Li, Yinghuan Shi, Yang Gao, and Hujun Yin. 2017. WebCaricature: a benchmark for caricature face recognition. arXiv preprint arXiv:1703.03230 (2017).

[7] Ashutosh Mishra,Shyam Nandan Rai,Anand Mishra和CV Jawahar。 2016。IIITCFW:野外卡通面孔的基準數據庫。 在歐洲計算機視覺會議(ECCV)中。 斯普林格(35-47)。

[8] 藤本東(Azuma Fujimoto),小川透(Toru Ogawa),山本和義(Kazuyoshi Yamamoto),松井裕介(Yusuke Matsui),山崎俊彥(Toshihiko Aizawa)和元澤清晴(Kiyoharu Aizawa).2016年.Manga109數據集和元數據的創建。在第一屆國際CoMics分析,處理和理解研討會上,ACM,2。

[9] 劉未央,溫彥東,余志定,李明,比克莎·拉吉和樂松。 2017. Sphereface:深度超球面嵌入,用於人臉識別。 IEEE計算機視覺和模式識別(CVPR)會議的論文集。 212–220。

[10] Hao Wang, Yitong Wang, Zheng Zhou, Xing Ji, Dihong Gong, Jingchao Zhou, Zhifeng Li, and Wei Liu. 2018. Cosface: Large margin cosine loss for deep face recognition. In Proceedings of the IEEE Con​​ference on Computer Vision and Pattern Recognition (CVPR). 5265–5274.

[11] 鄧建康,郭佳,薛念南和Stefanos Zafeiriou。 2019年。Arcface:用於深層人臉識別的附加角餘量損失。 IEEE計算機視覺和模式識別(CVPR)會議的論文集。 4690-4699。

[12] 林宗儀,Priya Goyal,Ross Girshick,He Kaiming He和PiotrDollár。 2017。用於密集物體檢測的焦點損失。 在IEEE計算機視覺國際會議(ICCV)的會議記錄中。 2980–2988。

[13] 於海明,範繁,陳可育,何艷,陸向菊,劉俊輝和謝丹明。 2019。未知身份拒絕丟失:利用未標記的數據進行人臉識別。 在IEEE國際計算機視覺會議研討會(ICCVW)的會議記錄中。 0-0。

本文轉載自公眾號愛奇藝技術產品團隊(ID:iQIYI-TP)。

原文鏈接

ACM MM2020 | 一個卡通人臉識別的基準數據集