Categories
程式開發

C++之父:爱吃辣子鸡,C++20会非常出色丨极客档案

今年 11 月,C++ 之父 Bjarne Stroustrup 因工作出差来到中国。在上海,InfoQ 记者有幸对 Bjarne 博士进行了一次独家专访。Bjarne …

Categories
程式開發

2020年九大顶级Java框架

本文最初发布于Towards Data Science,由InfoQ中文站翻译并分享。

2020年九大顶级Java框架 7

Java创建于1995年,目前有134861个网站使用Java,如ESPN、SnapDeal、阿里巴巴等。在24年的发展历程中,Java已经证明自己是用于自定义软件开发的顶级通用编程语言。

Java广泛应用于科学教育、金融、法律和政府等行业。在下面的饼图中,您可以看到Java语言在各个行业中的使用情况

2020年九大顶级Java框架 8

这种开源编程语言是面向对象的,其目的是让应用程序开发人员编写的代码可以“一次编写,随处运行”(WORA)。这使得编译后的Java代码可以在每个支持Java的平台上运行。…

Categories
程式開發

Elasticsearch 洩露27億郵件數據,包括多家國內大廠郵箱

2019年12月4日,Comparitech與安全研究人員Bob Diachenko 一起發現了一個數據洩露的Elasticsearch數據庫,其中包括27億個電子郵件地址。 Diachenko稱:“單就數字而言,這可能是我所看到的洩露的數據最龐大的一次。”

事件回溯

SecurityDiscovery網站的網絡威脅情報總監鮑勃·迪亞琴科(Bob Diachenko)發文稱:“我們發現了一個Elasticsearch數據庫洩露,包括了27億個電子郵件地址,其中10億個密碼都是以簡單的明文存儲的。其中大多數被盜的郵件域名來自中國的郵件提供商,騰訊、新浪、搜狐和網易等都在內,發現了包括qq.com,139.com,126.com,gfan.com和game .sohu.com等域名。另外,雅虎、Gmail以及一些俄羅斯的郵件域名也受到了影響。”…

Categories
程式開發

雲原生應用萬節點分鐘級分發協同實踐

引言

2019 年天貓雙11,阿里巴巴核心系統首次實現 100% 上雲。面對全球最大的交易洪峰,阿里雲扛住了每秒 54.4 萬筆的交易峰值,這是“雲原生”與“天貓全球狂歡節”的一次完美聯名。

雲原生應用萬節點分鐘級分發協同實踐 21

(圖為 2019 年天貓雙11 …

Categories
程式開發

Airbnb 遷移到 GraphQL

Airbnb 已經成功地將其大部分 API 遷移到了 GraphQL,從而縮短了頁面加載時間並提供了更直觀的用戶體驗。在 GraphQL Summit 上的演講中,Brie

Categories
程式開發

Windows 10 Mobile“謝幕”,微軟正式退出手機OS市場

Windows 10 Mobile“謝幕”,微軟正式退出手機OS市場 31

本週,隨著Windows 10 Mobile最後一次累積更新的發布,微軟將正式停止對Windows 10 Mobile操作系統的支持

這意味著Windows 10 Mobile正式“退役”,也標誌著微軟正式退出手機操作系統(OS)市場。…

Categories
程式開發

知识图谱的下一步:知识指导的预训练模型和图神经网络

知识图谱作为对数据进行结构化组织与体系化管理的核心技术之一,不仅改变了互联网行业,也给信息与通信行业带来了深刻变革。随着5G与AR技术的兴起,知识图谱的发展出现了很多新的特点。近日,InfoQ记者在AICon全球人工智能与机器学习大会 北京 2019 现场采访了华为中央软件院知识图谱首席技术专家贾岩涛,他与我们分享了知识图谱在信息通信行业的研究和应用重点,以及从非互联网公司视角看到的知识图谱未来的可能性。以下为采访问答实录。

InfoQ:贾岩涛老师您好,非常高兴这次能够在AICon现场采访到您。今天主要想跟您聊一聊知识图谱领域的现状和进展。首先能不能请您先介绍一下,您是什么适合开始进入知识图谱领域做相关研究的?

贾岩涛:我个人跟图还是很有渊源的,我读博时的研究方向就是图论相关的,博士毕业之后我在2012年加入中科院计算所工作了5年,一直在做图谱相关的研究工作。2011年的时候,我们的实验室提了OpenIO的概念(Open Intelligent Ontology,开放智能本体),与后来Google提出的知识图谱概念很像。到了2012年Google提出了知识图谱的概念后,一下引起了工业界的巨大关注,后来我们发现,其实我们还算是一个先行者,在这之前就做了一些研究工作。2012到2017年,我一直在做一些研究与工程相关的东西。因为知识图谱本身并不是一个纯研究问题,很多时候,图谱的效果怎样或者构建图谱的方法是不是有效,还要经得起实践的检验。所以知识图谱的定位应该是在研究与工程实践的中间地带,二者都要兼顾。首先知识图谱确实需要理论支撑,特别是当前自然语言处理的研究还并不成熟,工业界实践追求的是规模要大、性能要达标,用户体验要好,这几个需求的平衡很难把握。而且,工业界普遍会与实际的应用场景距离更近,且坐拥海量真实的数据。在知识图谱这个方向上,我虽然专注了十几年时间,但对此依然充满热情,相信还有很多待研究与待落地的东西。…

Categories
程式開發

地理文本處理技術在高德的演進(上)

一、背景

地圖App的功能可以簡單概括為定位,搜索,導航三部分,分別解決在哪裡,去哪裡,和怎麼去的問題。高德地圖的搜索場景下,輸入的是,地理相關的檢索query,用戶位置,App圖面等信息,輸出的是,用戶想要的POI。如何能夠更加精準地找到用戶想要的POI,提高滿意度,是評價搜索效果的最關鍵指標。

一個搜索引擎通常可以拆分成query分析、召回、排序三個部分,query分析主要是嘗試理解query表達的含義,為召回和排序給予指導。

地圖搜索的query分析不僅包括通用搜索下的分詞,成分分析,同義詞,糾錯等通用NLP技術,還包括城市分析,wherewhat分析,路徑規劃分析等特定的意圖理解方式。

常見的一些地圖場景下的query意圖表達如下:

地理文本處理技術在高德的演進(上) 33

query分析是搜索引擎中策略密集的場景,通常會應用NLP領域的各種技術。地圖場景下的query分析,只需要處理地理相關的文本,多樣性不如網頁搜索,看起來會簡單一些。但是,地理文本通常比較短,並且用戶大部分的需求是唯一少量結果,要求精準度非常高,如何能夠做好地圖場景下的文本分析,並提升搜索結果的質量,是充滿挑戰的。

二、整體技術架構

地理文本處理技術在高德的演進(上) 34

搜索架構

類似於通用檢索的架構,地圖的檢索架構包括query分析,召回,排序三個主要部分。先驗的,用戶的輸入信息可以理解為多種意圖的表達,同時下發請求嘗試獲取檢索結果。後驗的,拿到每種意圖的檢索結果時,進行綜合判斷,選擇效果最好的那個。

地理文本處理技術在高德的演進(上) 35

query分析流程…

Categories
程式開發

萬字長文淺談微視推薦系統中的特徵工程

導語 |在推薦系統中,特徵工程扮演著重要的角色。俗話說數據和特徵決定了機器學習算法的上限,而模型、算法的選擇和優化只是在不斷逼近這個上限。特徵工程的前提是收集足夠多的數據,使用數據學習知識,從大量的原始數據中提取關鍵信息並表示為模型所需要的形式。本文主要說明微視,這種富媒體形態的短視頻平台,是如何通過視頻內容特徵以及用戶屬性和行為數據,來精準預測用戶對短視頻的喜好的。

引言

本文主要是跟各位讀者分享特徵工程領域的一些通用方法和技巧,以及微視在特徵工程上的相關實踐經驗。微視作為一個短視頻平台,存在其獨有的業務特點,這也給特徵構造帶來了一定的難度。比如熱目類目在播放時長、互動率等指標上表現出天然的優勢,長視頻相比於時長較短的視頻在播放完成度、完播率等指標上存在明顯的劣勢,如何消除這些bias的影響都是特徵構造時需要特別注意的地方,而對於我們線上的多目標排序模型來說,不同單目標對應的最優特徵組合也不盡相同,這些不僅需要較強的專業領域知識,更重要的是對自身業務場景的深刻認知以及大量線上實驗的探索嘗試與驗證。

一、特徵提取

微視作為一個短視頻平台,存在其獨有的業務特點,這也給特徵構造帶來了一定的難度。比如熱目類目在播放時長、互動率等指標上表現出天然的優勢,長視頻相比於時長較短的視頻在播放完成度、完播率等指標上存在明顯的劣勢,如何消除這些bias的影響都是特徵構造時需要特別注意的地方,而對於我們線上的多目標排序模型來說,不同單目標對應的最優特徵組合也不盡相同,這些不僅需要較強的專業領域知識,更重要的是對自身業務場景的深刻認知以及大量線上實驗的探索嘗試與驗證。

特徵工程就是將原始數據空間映射到新的特徵向量空間,使得在新的特徵空間中,模型能夠更好地學習數據中的規律。因此,特徵提取就是對原始數據進行處理與變換的過程。常見的原始數據類型有數值型、離散型,還有文本、圖像、視頻等。如果將這些數據作為一個整體來看待的話,把用戶、視頻、作者看作節點,用戶與視頻、作者的交互看作邊構建出的複雜網絡也是我們的原始數據。

事實上,如果特徵工程做的足夠好,即使是簡單的模型,也能表現出非常好的效果。而復雜的模型可以在一定程度上減少特徵工程的工作量。例如,對於線性模型,我們需要將類別變量進行獨熱編碼等處理,但對於復雜一些的模型如樹模型,則可以直接處理類別變量。像推薦系統中常用的LR模型,需要手工構造組合特徵,而FM模型可以解決特徵組合的問題,直接輸入原始特徵。而更複雜的DNN模型,可以自動學習特徵的表示。

在微視場景下,視頻的播放時長、播放完整度、點贊、轉發、分享、評論等多種互動行為都是推薦模型的訓練目標,根據模型所要學習的目標和業務邏輯,我們需要考慮數據中有哪些可能相關的信息,從現有數據中挖掘出對模型預測有用的特徵。比如在微視排序中,用戶的興趣,在App上的播放、互動等行為以及視頻的類別、標籤、熱度等都是強相關的因素。在確定了哪些因素可能與預測目標相關後,我們需要將此信息抽取成特徵,下面會對不同特徵的處理方式做具體介紹。

萬字長文淺談微視推薦系統中的特徵工程 46

1.數值特徵

Categories
程式開發

Spark誕生頭十年:Hadoop由盛轉衰,統一數據分析大行其道

2009年,Spark誕生於計算機系統的學術聖地加州大學伯克利分校的AMP Lab,最初是一個研究項目,後來於2010年正式開源,並在2013年貢獻給Apache基金會,翌年即畢業成為Apache基金會頂級項目。對於一個具有相當技術門檻與復雜度的平台,Spark從誕生到正式版本成熟,整個過程僅僅花了五年時間。誕生之初,Spark就致力於提供基於RDD/DataFrame的一體化解決方案,將批處理、流處理、SQL、機器學習、圖處理等模型統一到一個平台下,並以一致的API公開,使得Spark在誕生後的十年間得以應用於更加廣泛的工程領域,快速成長為大數據處理引擎中的佼佼者。

2019年是Spark誕生的第十個年頭,Spark引擎自身以及它孵化出來的Spark生態都在不斷迭代和演進。近日,InfoQ記者在AICon全球人工智能與機器學習大會 北京 2019 現場採訪了Databricks軟件工程師李元健,他與我們分享了根植於Spark各個發展階段的統一數據分析理念、Spark社區接下來工作的重點,以及大數據領域需要關注的變化和趨勢,以下為採訪問答實錄。

InfoQ:李元健老師您好,非常高興這次能夠在AICon現場採訪到您。您這次準備的演講主題是《Databricks在構建統一數據分析平台上的新一輪實踐》,能否先跟我們解釋一下,何為“統一數據分析平台”?其中的“統一”包含哪幾個層面的含義?

李元健:統一的數據分析平台其實是各大互聯網公司和軟件公司始終奉行的一套設計準則,不僅植根於Databricks,我們期望用統一的一套平台解決方案來滿足多種場景需求甚至跨場景需求。這個“統一”不僅僅是技術層面的API、底層抽象的統一,更是某種程度上的上層使用者協作方式的統一。 …