Categories
程式開發

Airbnb 遷移到 GraphQL

Airbnb 已經成功地將其大部分 API 遷移到了 GraphQL,從而縮短了頁面加載時間並提供了更直觀的用戶體驗。在 GraphQL Summit 上的演講中,Brie

Categories
程式開發

Windows 10 Mobile“謝幕”,微軟正式退出手機OS市場

Windows 10 Mobile“謝幕”,微軟正式退出手機OS市場 1

本週,隨著Windows 10 Mobile最後一次累積更新的發布,微軟將正式停止對Windows 10 Mobile操作系統的支持

這意味著Windows 10 Mobile正式“退役”,也標誌著微軟正式退出手機操作系統(OS)市場。…

Categories
程式開發

知识图谱的下一步:知识指导的预训练模型和图神经网络

知识图谱作为对数据进行结构化组织与体系化管理的核心技术之一,不仅改变了互联网行业,也给信息与通信行业带来了深刻变革。随着5G与AR技术的兴起,知识图谱的发展出现了很多新的特点。近日,InfoQ记者在AICon全球人工智能与机器学习大会 北京 2019 现场采访了华为中央软件院知识图谱首席技术专家贾岩涛,他与我们分享了知识图谱在信息通信行业的研究和应用重点,以及从非互联网公司视角看到的知识图谱未来的可能性。以下为采访问答实录。

InfoQ:贾岩涛老师您好,非常高兴这次能够在AICon现场采访到您。今天主要想跟您聊一聊知识图谱领域的现状和进展。首先能不能请您先介绍一下,您是什么适合开始进入知识图谱领域做相关研究的?

贾岩涛:我个人跟图还是很有渊源的,我读博时的研究方向就是图论相关的,博士毕业之后我在2012年加入中科院计算所工作了5年,一直在做图谱相关的研究工作。2011年的时候,我们的实验室提了OpenIO的概念(Open Intelligent Ontology,开放智能本体),与后来Google提出的知识图谱概念很像。到了2012年Google提出了知识图谱的概念后,一下引起了工业界的巨大关注,后来我们发现,其实我们还算是一个先行者,在这之前就做了一些研究工作。2012到2017年,我一直在做一些研究与工程相关的东西。因为知识图谱本身并不是一个纯研究问题,很多时候,图谱的效果怎样或者构建图谱的方法是不是有效,还要经得起实践的检验。所以知识图谱的定位应该是在研究与工程实践的中间地带,二者都要兼顾。首先知识图谱确实需要理论支撑,特别是当前自然语言处理的研究还并不成熟,工业界实践追求的是规模要大、性能要达标,用户体验要好,这几个需求的平衡很难把握。而且,工业界普遍会与实际的应用场景距离更近,且坐拥海量真实的数据。在知识图谱这个方向上,我虽然专注了十几年时间,但对此依然充满热情,相信还有很多待研究与待落地的东西。…

Categories
程式開發

地理文本處理技術在高德的演進(上)

一、背景

地圖App的功能可以簡單概括為定位,搜索,導航三部分,分別解決在哪裡,去哪裡,和怎麼去的問題。高德地圖的搜索場景下,輸入的是,地理相關的檢索query,用戶位置,App圖面等信息,輸出的是,用戶想要的POI。如何能夠更加精準地找到用戶想要的POI,提高滿意度,是評價搜索效果的最關鍵指標。

一個搜索引擎通常可以拆分成query分析、召回、排序三個部分,query分析主要是嘗試理解query表達的含義,為召回和排序給予指導。

地圖搜索的query分析不僅包括通用搜索下的分詞,成分分析,同義詞,糾錯等通用NLP技術,還包括城市分析,wherewhat分析,路徑規劃分析等特定的意圖理解方式。

常見的一些地圖場景下的query意圖表達如下:

地理文本處理技術在高德的演進(上) 3

query分析是搜索引擎中策略密集的場景,通常會應用NLP領域的各種技術。地圖場景下的query分析,只需要處理地理相關的文本,多樣性不如網頁搜索,看起來會簡單一些。但是,地理文本通常比較短,並且用戶大部分的需求是唯一少量結果,要求精準度非常高,如何能夠做好地圖場景下的文本分析,並提升搜索結果的質量,是充滿挑戰的。

二、整體技術架構

地理文本處理技術在高德的演進(上) 4

搜索架構

類似於通用檢索的架構,地圖的檢索架構包括query分析,召回,排序三個主要部分。先驗的,用戶的輸入信息可以理解為多種意圖的表達,同時下發請求嘗試獲取檢索結果。後驗的,拿到每種意圖的檢索結果時,進行綜合判斷,選擇效果最好的那個。

地理文本處理技術在高德的演進(上) 5

query分析流程…

Categories
程式開發

萬字長文淺談微視推薦系統中的特徵工程

導語 |在推薦系統中,特徵工程扮演著重要的角色。俗話說數據和特徵決定了機器學習算法的上限,而模型、算法的選擇和優化只是在不斷逼近這個上限。特徵工程的前提是收集足夠多的數據,使用數據學習知識,從大量的原始數據中提取關鍵信息並表示為模型所需要的形式。本文主要說明微視,這種富媒體形態的短視頻平台,是如何通過視頻內容特徵以及用戶屬性和行為數據,來精準預測用戶對短視頻的喜好的。

引言

本文主要是跟各位讀者分享特徵工程領域的一些通用方法和技巧,以及微視在特徵工程上的相關實踐經驗。微視作為一個短視頻平台,存在其獨有的業務特點,這也給特徵構造帶來了一定的難度。比如熱目類目在播放時長、互動率等指標上表現出天然的優勢,長視頻相比於時長較短的視頻在播放完成度、完播率等指標上存在明顯的劣勢,如何消除這些bias的影響都是特徵構造時需要特別注意的地方,而對於我們線上的多目標排序模型來說,不同單目標對應的最優特徵組合也不盡相同,這些不僅需要較強的專業領域知識,更重要的是對自身業務場景的深刻認知以及大量線上實驗的探索嘗試與驗證。

一、特徵提取

微視作為一個短視頻平台,存在其獨有的業務特點,這也給特徵構造帶來了一定的難度。比如熱目類目在播放時長、互動率等指標上表現出天然的優勢,長視頻相比於時長較短的視頻在播放完成度、完播率等指標上存在明顯的劣勢,如何消除這些bias的影響都是特徵構造時需要特別注意的地方,而對於我們線上的多目標排序模型來說,不同單目標對應的最優特徵組合也不盡相同,這些不僅需要較強的專業領域知識,更重要的是對自身業務場景的深刻認知以及大量線上實驗的探索嘗試與驗證。

特徵工程就是將原始數據空間映射到新的特徵向量空間,使得在新的特徵空間中,模型能夠更好地學習數據中的規律。因此,特徵提取就是對原始數據進行處理與變換的過程。常見的原始數據類型有數值型、離散型,還有文本、圖像、視頻等。如果將這些數據作為一個整體來看待的話,把用戶、視頻、作者看作節點,用戶與視頻、作者的交互看作邊構建出的複雜網絡也是我們的原始數據。

事實上,如果特徵工程做的足夠好,即使是簡單的模型,也能表現出非常好的效果。而復雜的模型可以在一定程度上減少特徵工程的工作量。例如,對於線性模型,我們需要將類別變量進行獨熱編碼等處理,但對於復雜一些的模型如樹模型,則可以直接處理類別變量。像推薦系統中常用的LR模型,需要手工構造組合特徵,而FM模型可以解決特徵組合的問題,直接輸入原始特徵。而更複雜的DNN模型,可以自動學習特徵的表示。

在微視場景下,視頻的播放時長、播放完整度、點贊、轉發、分享、評論等多種互動行為都是推薦模型的訓練目標,根據模型所要學習的目標和業務邏輯,我們需要考慮數據中有哪些可能相關的信息,從現有數據中挖掘出對模型預測有用的特徵。比如在微視排序中,用戶的興趣,在App上的播放、互動等行為以及視頻的類別、標籤、熱度等都是強相關的因素。在確定了哪些因素可能與預測目標相關後,我們需要將此信息抽取成特徵,下面會對不同特徵的處理方式做具體介紹。

萬字長文淺談微視推薦系統中的特徵工程 16

1.數值特徵

Categories
程式開發

Spark誕生頭十年:Hadoop由盛轉衰,統一數據分析大行其道

2009年,Spark誕生於計算機系統的學術聖地加州大學伯克利分校的AMP Lab,最初是一個研究項目,後來於2010年正式開源,並在2013年貢獻給Apache基金會,翌年即畢業成為Apache基金會頂級項目。對於一個具有相當技術門檻與復雜度的平台,Spark從誕生到正式版本成熟,整個過程僅僅花了五年時間。誕生之初,Spark就致力於提供基於RDD/DataFrame的一體化解決方案,將批處理、流處理、SQL、機器學習、圖處理等模型統一到一個平台下,並以一致的API公開,使得Spark在誕生後的十年間得以應用於更加廣泛的工程領域,快速成長為大數據處理引擎中的佼佼者。

2019年是Spark誕生的第十個年頭,Spark引擎自身以及它孵化出來的Spark生態都在不斷迭代和演進。近日,InfoQ記者在AICon全球人工智能與機器學習大會 北京 2019 現場採訪了Databricks軟件工程師李元健,他與我們分享了根植於Spark各個發展階段的統一數據分析理念、Spark社區接下來工作的重點,以及大數據領域需要關注的變化和趨勢,以下為採訪問答實錄。

InfoQ:李元健老師您好,非常高興這次能夠在AICon現場採訪到您。您這次準備的演講主題是《Databricks在構建統一數據分析平台上的新一輪實踐》,能否先跟我們解釋一下,何為“統一數據分析平台”?其中的“統一”包含哪幾個層面的含義?

李元健:統一的數據分析平台其實是各大互聯網公司和軟件公司始終奉行的一套設計準則,不僅植根於Databricks,我們期望用統一的一套平台解決方案來滿足多種場景需求甚至跨場景需求。這個“統一”不僅僅是技術層面的API、底層抽象的統一,更是某種程度上的上層使用者協作方式的統一。 …

Categories
程式開發

基於 TensorFlow 2.0 的長短期記憶網絡進行多類文本分類

文本分類是指將給定文本按照其內容判別到一個或多個預先確定的文本類別中的過程。文本分類是一種典型的有知道的學習過程,根據已經被標記的文本集合,通過學習,得到一個文本特徵和文本類別之間的關係模型,然後利用這個關係模型對新文本進行類別判斷。文本分類計數用於識別文檔主題,並將之歸類到預先定義的主題或主題集合中。

需要注意的是,多類文本分類與多標籤分類並不同,其中多類分類區別於二分類問題,即在$n (n2)$ 個類別中互斥地選取一個作為輸出;而多標籤分類,是在n 個標籤中非互斥地選取$m (m

對自然語言處理(Natural Language Processing,NLP)領域來說,很多創新之處都是關於如何在詞向量中加入上下文。常用的方法之一就是使用遞歸神經網絡(Recurrent …

Categories
程式開發

WICG引入了展現鎖定,實現更快的Web渲染

Web孵化社區群組(Web Incubator Community Group,WICG)最近引入了展現鎖定(Display Locking)提案,該提案可以輕鬆提高瀏覽器頁面內容量並對渲染進行控制。

該提案適應多種使用場景,包括快速展現非常大的HTML文檔,滾動顯示大量內容,異步預渲染不可見的內容供後續展現,以及更快速地度量佈局。該提案試圖在不破壞Web特性和佈局計算的情況下避免加載和渲染不可見的內容,並且為開發人員提供一種靈活性,使其能夠在不向終端用戶屏幕展現的情況下將內容預先渲染出來。

目前,DOM是原子渲染的,隨著站點和應用規模的增長,渲染也會耗費越來越長的時間。現在,我們所採用的技術包括隱藏不可見的內容或虛擬化,但是這些方式有一些限制,並且有可靠性方面的潛在問題。

展現鎖定提案引入了三個新特性:…

Categories
程式開發

Q資訊:小米集團股價漲超7%逼近10港元;趣頭條回應做空指控:報告有嚴重錯誤;蘋果iPhone已正式支持中國聯…

華為成立新公司“華為雲計算技術有限公司”;趣頭條回應做空指控:報告有嚴重錯誤;蘋果發布iOS 13.3正式版:修復錯誤,增加家長控制;小米集團股價漲超7%逼近10港元;蘋果iPhone已正式支持中國聯通VoLTE。

Q資訊:小米集團股價漲超7%逼近10港元;趣頭條回應做空指控:報告有嚴重錯誤;蘋果iPhone已正式支持中國聯... 42

科技公司

華為成立新公司“華為雲計算技術有限公司”

12月11日消息,據天眼查數據顯示,12月6日,華為雲計算技術有限公司成立,註冊資本為5000萬人民幣,法定代表人為華為公司副總裁、華為雲業務總裁鄭葉來,公司由華為的運營主體華為投資控股有限公司全資控股。公司疑似實際控制人為華為投資控股有限公司工會委員會,持股比例為98.99%。

趣頭條回應做空指控:報告有嚴重錯誤

12月11日消息,市場研究機構WolfpackResearch發布長達56頁的做空報告,

Categories
程式開發

一時減半一時爽:比特幣價格至少飆升120倍

一時減半一時爽:比特幣價格至少飆升120倍 43

現如今每 10 分鐘產出的比特幣產量每四年將會減少一半。

這就是我們所說的比特幣減半。下一次比特幣減半將是比特幣歷史上的第三次減半,將會發生於 2020 年 5 月。當前每 …