Categories
程式開發

AI一周資訊:華為開源哪吒、TinyBERT模型,可直接下載使用;美國六大科技巨頭十年來全球避稅1000億美元;De…


資訊

華為起訴FCC違反美國憲法,並公開回應李洪元事件

12月5日,華為在美國法院提交起訴書,請求法院認定美國聯邦通信委員會(FCC)有關禁止華為參與聯邦補貼資金項目的決定違反了美國憲法和《行政訴訟法》。

FCC於11月22日通過一項決定,將華為認定為美國國家安全威脅,並禁止美國農村地區運營商使用通用服務基金(USF)購買華為設備。在向美國聯邦第五巡迴上訴法院提交的起訴書中,華為認為FCC直接認定華為構成國家安全威脅,沒有給予華為就相關指控進行反駁的機會,違反了正當程序原則。華為同時認為FCC並未提供任何證據或合理的理由來支撐其武斷隨意的決定,違反了美國憲法、《行政程序法》等美國法律。

華為首席法務官宋柳平在發布會上表示,“僅僅因為華為是一家中國公司就禁止我們,不能解決任何網絡安全問題。”他還補充道,FCC主席Ajit Pai和其他委員未提供任何證據,來證明他們認為華為構成安全威脅的指控。

AI一周資訊:華為開源哪吒、TinyBERT模型,可直接下載使用;美國六大科技巨頭十年來全球避稅1000億美元;De... 1

在發布會後的問答環節,華為對最近的一些熱點事件進行了回應。有記者問到了華為對於最近“李洪元事件”有什麼解釋,宋柳平表示:第一,感謝公眾對這個事件的關注;第二,這並不是一個勞動糾紛事件(是對於涉嫌違法的行為向司法機關舉報);第三,華為已經發布了對於該事件的聲明,今天沒有更進一步的補充意見。

12月2日,華為公司對李洪元事件作出回應:華為有權利,也有義務,並基於事實對於涉嫌違法的行為向司法機關舉報。我們尊重司法機關,包括公安、檢察院和法院的決定。如果李洪元認為他的權益受到了損害,我們支持他運用法律武器維護自己的權益,包括起訴華為。這也體現了法律面前人人平等的法治精神。

四川大學、中國民航局和Wisesoft研究人員開發了空中交通管制語音數據庫

近期,來自四川大學、中國民航局和初創公司Wisesoft的研究人員基於空中交通管制員和飛行員之間的對話,開發了一個大型語音識別數據集。該數據集在註冊後可用於非商業用途,旨在幫助研究人員提高空中交通管制中語音識別的技術水平,並有助於進一步實現自動化,提高空中交通基礎設施的安全性。

為進行研究,研究人員創建了一個40人的團隊來收集和標記實時ATC語音。他們創建了一個大規模的數據集,並會將其中一部分免費發布(註冊後);這個數據集包含約40小時的中文演講和19小時的英文演講。作者寫道:“這項工作項旨在為ATC應用創建一個真正的ASR語料庫,其中包含帶口音的中文和英文演講。”

AI一周資訊:華為開源哪吒、TinyBERT模型,可直接下載使用;美國六大科技巨頭十年來全球避稅1000億美元;De... 2

數據集包​​含698個不同的漢字和584個英語單詞。他們還根據說話者的性別、崗位(飛行員或控制員)、錄音質量、討論的飛機在哪個飛行階段、語音來自哪個機場控制塔來對語音進行標記。

針對為什麼要研究空中交通管制環境中的自動語音識別問題,項目作者闡明了三個主要原因:這項技術能很容易地對飛行員口頭提出的問題進行自動、實時回复;通過ASR與文本-語音( TTS)系統的結合,機器人飛行員可以與人類空中交通管制員一同協作;ASR可以快速分析ATC語音歷史檔案。

HuggingFace將其免費軟件庫升級到2.2版本

NLP初創公司HuggingFace將其免費軟件庫升級到2.2版本,新版本增加了四種新的NLP模型:ALBERT、CamemBERT、DistillRoberta和GPT-2-XL(15億參數版本)。更新內容包括:支持編碼器-解碼器架構,以及一個新的基準測試部分。

AI一周資訊:華為開源哪吒、TinyBERT模型,可直接下載使用;美國六大科技巨頭十年來全球避稅1000億美元;De... 3

像HuggingFace NLP庫這種數據庫很大程度上加快了新研究模型融入現實世界生產系統中的速度。這種很快應用於實際生產中的方式有​​助於技術進一步成熟,也能推動這項技術的進一步應用,最終催化了技術的成熟。

HuggingFace v2.2開源鏈接:
https://github.com/huggingface/transformers/releases/tag/v2.2.0

華為諾亞方舟開源哪吒、TinyBERT模型,可直接下載使用

華為諾亞方舟實驗室開源了一批優秀預訓練語言模型,性能更好、使用更方便。

12月3日,華為諾亞方舟實驗室的 NLP 團隊開源了兩個重要的預訓練語言模型——哪吒和 TinyBERT。這兩個模型可以直接下載、預訓練和微調。華為語音語義首席科學家劉群在微博上轉發了這一消息。

AI一周資訊:華為開源哪吒、TinyBERT模型,可直接下載使用;美國六大科技巨頭十年來全球避稅1000億美元;De... 4

根據 GitHub 上的介紹,這一項目是諾亞方舟實驗室用來開源各種預訓練模型的項目,目前有兩個,日後不排除有更多模型加入進來。該項目中第一個開源的模型是哪吒(NEZHA:NEural contextualiZed representation for CHinese lAnguage understanding),是華為諾亞方舟實驗室自研的預訓練語言模型,在一些 NLP 任務上取得了 SOTA 的表現。這一模型基於 BERT,可以在普通的 GPU 集群上進行訓練,同時融合了英偉達和谷歌代碼的早期版本。哪吒模型已經可以下載,已有四種中文的預訓練模型,分別是 base、large 和對應的 mask 和全詞 mask 類型。

開源地址:
https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/NEZHA

項目中第二個開源的模型是TinyBERT,這是一個通過蒸餾方法獲得的 BERT 模型。相比原版的 BERT-base,TinyBERT 比它小了 7.5 倍,推理速度則快了 9.4 倍。無論是在預訓練階段還是特定任務學習階段,TinyBERT 的性能都更好。

開源地址:
https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/TinyBERT

專家討論稱目前AI技術對社會威脅最大的是Deepfakes

一些專家對人工智能造成的威脅給出了自己的看法,毫無意外,虛假內容是當前最大的威脅。

這些專家12月3日在紐約《華爾街日報》網絡安全高管論壇上發表了上述講話。社交媒體分析公司Graphika首席創新官Camille Francois表示,Deepfake是最大的威脅。我們已經見識到了人工“假新聞”和虛假信息活動的威力,因此,許多人把Deepfake當成人工智能對社會的主要威脅也不足為奇了。

AI一周資訊:華為開源哪吒、TinyBERT模型,可直接下載使用;美國六大科技巨頭十年來全球避稅1000億美元;De... 5

Francois強調,如今的假文章和假信息運動依靠大量的手工勞動來製造和傳播虛假信息。 Francois說:“當你看到虛假信息宣傳活動時,你會發現創建虛假網站和虛假博客所耗費的體力是巨大的。”

“但是如果這些虛假消息製造者能簡單地將看起來可信的、吸人眼球的文本自動化擴展和傳播,那麼網絡上就會佈滿各種垃圾,所以我非常擔心。”

美聯邦貿易委員會擴大對亞馬遜反壟斷審查範圍,涉及雲計算業務

12月5日,據外媒報導,據知情人士透露,美國反壟斷調查機構擴大了對亞馬遜公司的審查範圍。除了零售業務,還將其龐大的雲計算業務囊括其中。上述知情人士表示,美國聯邦貿易委員會(FTC)的調查人員最近一直在詢問其他軟件公司有關亞馬遜雲計算部門AWS的做法。這些知情人士拒絕透露身份,因為他們沒有獲得公開發言的授權。

FTC此舉表明,該機構除了在調查亞馬遜在其龐大在線零售業務中的行為之外,也正在對該公司進行更廣泛的調查,以確定它是否違反了反壟斷法並損害了競爭。

AI一周資訊:華為開源哪吒、TinyBERT模型,可直接下載使用;美國六大科技巨頭十年來全球避稅1000億美元;De... 6

AWS主導著基礎雲計算技術市場,這些技術提供運行應用程序所需的存儲和計算能力。據分析師估計,AWS的市場規模比第二大競爭對手微軟Azure大幾倍。市場研究機構Gartner的數據顯示,AWS的份額為48%,微軟份額僅為16%。在最近12個月報告的業績中,AWS佔亞馬遜運營收入的60%。

FTC對亞馬遜的調查是席捲整個科技行業的反壟斷調查的一部分。美國聯邦和各州監管機構正在調查Alphabet子公司谷歌和Facebook,而眾議院司法委員會正在審查這些公司以及亞馬遜和蘋果公司的行為。

DeepMind發布LOGAN,擊敗BigGAN

近日,DeepMind 發表了一篇名為“LOGAN:生成對抗網絡的最新優化”的新論文。論文摘要中顯示:訓練生成式對抗網絡需要平衡精細的對抗動力。即使進行了仔細的調整,訓練也可能因掉落的模式而發散或最終達到不良的平衡。

這只GAN初登場就擊敗了“史上最強”的BigGAN,成為新的state-of-the-art,還把FID和IS分別提高了32%和17%。 DeepMind採用的方法,是引入了一種受CSGAN啟發的潛在優化(latent optimisation)。

首先,讓潛在變量z,通過生成器和判別器進行前向傳播。然後,用生成器損失(紅色虛線箭頭)的梯度來計算改進的z’。在第二次前向傳播中,使用優化後的z’。其後,引入潛在優化計算判別器的梯度。最後,用這些梯度來更新模型。 (如圖下所示)

AI一周資訊:華為開源哪吒、TinyBERT模型,可直接下載使用;美國六大科技巨頭十年來全球避稅1000億美元;De... 7

中國AI專利申請量逐年上升,百度、騰訊、微軟前三

日前,國家工業信息安全發展研究中心發布的《人工智能中國專利技術分析報告》顯示,中國人工智能領域的專利申請量呈逐年上升趨勢。中國人工智能專利申請量排名中,百度以5712件位列第一。

AI一周資訊:華為開源哪吒、TinyBERT模型,可直接下載使用;美國六大科技巨頭十年來全球避稅1000億美元;De... 8

報告顯示,截至2019年10月,中國人工智能專利申請量已經超越美國成為AI領域專利申請量最高的國家。百度、騰訊、微軟、浪潮、華為專利申請數量名列前五,其中百度以明顯優勢領跑。而從人工智能產業技術的細分角度來看,百度在深度學習、自然語言處理、語音、智能駕駛等各細分領域,無論是專利申請量還是增速,都呈現出明顯優勢。

報告:美國六大科技巨頭十年來在全球避稅1000億美元

谷歌、蘋果、亞馬遜、Facebook等美國科技巨頭在海外國家避稅,這已經不算是新聞,為了打擊避稅,許多歐洲國家針對矽谷公司推出了數字服務稅。據外媒最新消息,最新的一個研究報告顯示,美國矽谷六家最大的科技公司在過去十年中,在全球範圍內避稅1000億美元。最近,英國一家認證企業納稅行為(即是否有良好的納稅記錄)的組織“公平稅務標誌”(Fair Tax Mark)評估了2010年至2019年間Facebook、蘋果、亞馬遜、奈飛、谷歌和微軟的全球納稅情況。

AI一周資訊:華為開源哪吒、TinyBERT模型,可直接下載使用;美國六大科技巨頭十年來全球避稅1000億美元;De... 9

週一公佈的這項研究報告分析了美國科技公司提交給政府的10-K監管報告文件。報告研究了科技公司的納稅撥備金——公司在財務報告中提前留出的納稅金額——並將這些金額與實際交給政府的稅金進行了比較(這些金額被稱為現金稅)。研究人員發現,在過去的十年裡,六大科技公司的納稅撥備金和他們實際支付的稅金之間的差距達到了1002億美元。該報告指出,過去對大公司納稅的審查往往只關注納稅撥備金,而這筆金額並不總是政府收到的最終納稅金額。

研究人員指出,科技公司還在繼續把利潤“轉移到避稅天堂,特別是百慕大、愛爾蘭、盧森堡和荷蘭”。研究人員還表示,大部分納稅缺口“幾乎肯定是在美國以外出現的”,海外納稅額僅佔這些公司在這十年間海外利潤的8.4%。

聲音

AWS 首席佈道師 Jeff Barr:量子計算機無法被擁有,雲端量子計算服務最合理

AWS re:Invent 第一天,AWS首席佈道師 Jeff Barr 在其官網的發文中寫到:從 Amazon Braket 開始量子計算之旅。

Amazon Braket 是一項全託管服務,允許科學家、研究人員以及開發人員以集中方式試驗來自多家量子硬件供應商的新型計算機。 Braket 也就是“括號”,物理學家用它來表示量子力學狀態,AWS 的服務也正是得名於此。除此之外,AWS 的在量子計算領域的佈局還包括另外兩項:AWS 量子計算中心和 Amazon 量子解決方案實驗室。

AI一周資訊:華為開源哪吒、TinyBERT模型,可直接下載使用;美國六大科技巨頭十年來全球避稅1000億美元;De... 10

Jeff Barr 還表示,AWS 的目標,是與大家一道探索量子計算的實際用途,並幫助人們建立起屬於自己的合格量子開發人才培訓儲備。並且,AWS 的量子解決方案實驗室還將提供更多研究及合作機會。

AI開源工具

Netflix Metaflow

Metaflow 是 Netflix 機器學習基礎架構的關鍵部件,主要用於加速數據科學工作流的構建和部署,Netflix 希望通過開源 Metaflow 簡化機器學習項目從原型階段到生產階段的過程,進而提高數據科學家的工作效率。在過去兩年中,Metaflow 已在 Netflix 內部用於構建和管理從自然語言處理到運營研究的數百個數據科學項目。

Metaflow 也可以與當前主流的 Python 數據科學庫一起使用,包括 PyTorch、Tensorflow 和 SciKit Learn。

https://github.com/Netflix/metaflow