Categories
程式開發

微軟提出新AI框架MWSS,假新聞識別率優於最先進的基準


不久前,微軟和亞利桑那州立大學的研究人員在預印本平台 arxiv.org 上發表了一項研究論文,他們提出了一種人工智能框架: Multiple sources of Weak Social Supervision(MWSS),利用參與度和社交媒體信號來檢測假新聞。他們聲稱,經過在真實數據集上訓練和測試,該模型在假新聞早期檢測方面的表現優於一些最先進的基準。

如果該系統的正確率真的如作者聲稱的那樣,並投入生產,它將有助於阻斷虛假和誤導性信息的傳播,這些信息涉及美國總統候選人和其他有爭議的話題。布魯金斯學會(Brookings Institute)在 2018 年進行的一項調查發現,57% 的美國成年人在 2018 年大選期間曾遇到假新聞,19% 的人認為假新聞影響了他們的投票決定。

該論文的共同作者解釋說,學術文獻中的許多假新聞分類器依賴的信號需要很長時間才能聚合,這使得它們不適用於假新聞的早期檢測。此外,有些分類器僅僅依賴於信號,而這些信號容易受到有偏見或不真實的用戶反饋的影響。

相比之下,他們的新系統從多個來源進行監督,包括用戶和他們各自的社交活動。具體來說,它利用少量手動標籤的數據和大量弱標籤的數據(即帶有大量噪聲的數據),用於元學習人工智能框架中的聯合訓練。

一個名為Label Weighting Network(LWN)的模塊,對調節假新聞分類學習過程的弱標籤的權重進行建模,將研究人員所指的內容作為一個實例——例如(新聞片段)以及標籤作為“輸入”。它為“表示對”輸出一個代表重要性權重的值,該值決定了該實例在訓練假新聞分類器時的影響。為了在不同的弱信號之間共享信息,共享特徵提取器與 LWN 一起工作,來學習共同的表示方法,並使用函數將特徵映射到不同的弱標籤源。
微軟提出新AI框架MWSS,假新聞識別率優於最先進的基準 1

微軟人工智能框架與各種基準模型的性能對比圖

微軟研究人員利用開源的FakeNewsNet 數據集對他們的系統進行了基準測試,該數據集包含新聞內容(包括正文等元屬性),並帶有來自事實核查網站GossipCop 和PolitiFact 的專家註釋的標籤,同時還包含了社交背景信息,如有關該新聞文章的推文。他們使用13 個來源的語料庫對系統進行增強,其中包括英國主流新聞媒體,如英國廣播公司(BBC)和天空新聞(Sky News),以及俄羅斯新聞媒體的英文版,如RT 和Sputnik,內容大多與政治有關。

為了生成弱標籤,研究人員測量了分享新聞的用戶的情感評分,然後確定這些得分之間的差異,這樣,情緒差異很大的文章就會被註釋為假新聞。他們還生成了一組具有已知公眾偏見的人群的數據,並根據用戶的興趣與這些人群的匹配程度來計算得分,其背後的理論是,有偏見的用戶分享的新聞更有可能是假新聞。最後,他們根據社交媒體上的元信息對用戶進行聚類,以此來衡量用戶的可信度。這樣一來,那些形成大型聚類的用戶(這可能表明是殭屍網絡或惡意活動)的用戶就被認為可信度較低。

在測試中,研究人員表示,性能最好的模型結合了 Facebook 和 RoBERTA 自然語言處理算法,並針對乾淨和弱數據的組合進行了訓練,在 GossipCop 和 PolitiFact 中檢測出假新聞的正確率分別為 80% 和 82% 。

該團隊計劃在未來的工作中探索其他技術,如獲得高質量的弱標籤的標籤校正方法。他們還希望對這個框架進行擴展,以考慮來自社交網絡的其他類型的弱監督信號,利用參與的時間戳。

當然,這些研究人員並非唯一試圖利用人工智能來阻斷假新聞傳播的人。

在最近的一項研究中,麻省理工學院計算機科學與人工智能實驗室開發了一種人工智能係統,可以識別誤導性的新聞文章。去年年底,Jigsaw 發布了 Assembler,這是一款為媒體機構提供的人工智能假新聞識別工具套件。 AdVerif.ai 是一個軟件即服務的平台,去年推出了Beta 測試版,它分析文章中的錯誤信息、成人內容、惡意軟件和其他有問題的內容,並交叉引用一個定期更新的數據庫,其中包含數千條假新聞和合法新聞。就 Facebook 而言,它已經試驗了部署人工智能工具來“識別賬戶和假新聞”。

作者簡介:

Kyle Wiggers,技術記者,現居美國紐約市,為 VentureBeat 撰寫有關人工智能的文章。

原文鏈接:

https://venturebeat.com/2020/04/10/ai-training-helps-remote-controlled-buggy-negotiate-rugged-terrain/