Categories
程式開發

2019 年 ACM Fellow公佈:阿里平頭哥首席科學家謝源等7位華人當選

紐約時間12月11日,美國計算機學會(ACM)宣布2019年新當選ACM Fellow名單,共有58位科學家當選,其中包括有阿里平頭哥首席科學家、達摩院高級研究員謝源在內的7位華人學者。這7位華人學者分別是陳熙霖、李向陽、呂松武、陶大程、謝源、周禮棟、Dawn Song,來自人臉識別、物聯網、蜂窩網絡、分佈式計算、安全和隱私等不同研究領域。 ACM Fellow用於表彰在計算機和信息技術領域從業五年以上,並做出”突出貢獻“(Exceptional Contributions)的科學家,只有1%的ACM會員有機會當選。

ACM創立於1947 年,目前在全世界130 …

Categories
程式開發

極客女孩崛起:神話還是現實

在過去的幾年裡,社會上做了很多努力來增加女性在科技界的代表,女性在機器學習和數據科學領域也作出了重大貢獻。然而,在數據科學領域,當涉及到女性的代表性時,似乎並不是每件事都是那麼“狂熱”。男女比例仍然不平衡,女性擔任的領導職位仍然比男性少得多。但我們不要只是假設,而是要用數據來驗證假設。

最近,本文作者Parul Pandey參加了Kaggle2019年度ML & DS挑戰賽,該賽事旨在全面了解數據科學和機器學習的現狀。本次挑戰的挑戰目標是,通過敘述性文本和數據探索結合,講述特定的一組數據科學和機器學習從業人員的故事。 Parul Pandey將調研目標鎖定在了全球女性機器學習和數據科學從業者身上,她也憑藉調研數據集獲得了賽事獎項。

本文總結了女性從業者在全球ML&DT領域的從業現狀及Parul 在調查過程中的見解。

多數受訪者來自美國、印度

Categories
程式開發

數據庫內核雜談(二):存儲“演化論”

數據庫是用來存儲海量數據的。存儲如此大量的數據,自然而然想到的就是以文件的形式存儲在硬盤(HDD或SSD)中。當然,一些商用數據庫為了追求性能,是將數據優先存儲在內存中(比如SAP的HANA和MemSQL)來獲得更高速的讀寫。本文主要涉及的是關係型數據庫針對硬盤的存儲。對於內存數據庫來說,依然需要硬盤作為備份或者2級存儲,所以相關知識也是適用的。

相較於列舉常見的存儲形式然後對比優缺點的分類法,我們今天另闢蹊徑,從”演化論”的角度來看,不同的存儲形式和優化方法是怎麼一步一步進化出來的。

一個數據庫存的是什麼呢?這裡簡單介紹一下關係模型(relational model)。關係模型由Ted Codd1970年提出,關係模型定義了所有的數據都是以元組(tuple)的形式存在,每個元組定義了多個屬性(attribute)的鍵值對,多個含有相同屬性的元組排列在一起就形成了一個關係(relation)。元組,屬性和關係對應到數據庫中的概念就是行(row),列(column), 和表(table)。一個表定義了多個column,每個column有一個type,每個row對應於每一個column都有一個取值(取值滿足type的定義),每個表又由多個row構成。不同的數據庫雖然有庫(database),schema或者命名空間(namespace)等不同級別的邏輯抽象,但是表卻是每個關係型數據庫最基本的存儲對象。

好了,確認了數據庫需要存儲的基本單元是表。那麼給定一張表,應該怎麼存在文件中呢?如果還能回想起上一講的內容,你會說,可以用comma-separated-value(CSV)格式的文件來存儲。確實,CSV文件中的每一行對應於一條row,每個row的不同column用逗號隔開,一個文件對應了一張表。下圖截取了一段Titanic倖存者的CSV文件。

數據庫內核雜談(二):存儲“演化論” 12

titanic_survivor.csv…

Categories
程式開發

Twitter成立新團隊,開發社交媒體去中心化標準

Twitter首席執行官傑克·多西(Jack Dorsey)於美國當地時間週三通過Twitter對外宣布,該公司正在資助新的研究團隊,為社交媒體平台構建開放而分散的技術標準,目的是讓Twitter成為這個標準的客戶端。同時也希望能幫助他們解決目前社交媒體架構存在的諸多問題。

image

Bluesky項目將包括最多五名負責制定標準的架構師、工程師和設計師。由Twitter的CTO Parag Agrawal親自帶領並負責招聘。

image

Twitter CTO Parag Agrawal

Categories
程式開發

腾讯对AI芯片的投资:燧原科技发布邃思DTU,性能比肩英伟达V100,用于云端训练

12月11日,AI芯片创企燧原科技在上海举办首场发布会。此次发布会上,燧原科技推出了首款云端AI训练芯片邃思DTU,以及搭载该芯片的AI加速卡云燧T10。据燧原科技表示,云燧T10已经可以实现量产,并预计2020年第一季度上市。至此,这家由腾讯投资,且成立至今不到两年的“年轻”公司,迈进了AI芯片市场的竞争赛道。

邃思DTU集成有141亿晶体管

邃思DTU是本次燧原科技发布会的主角,将主要应用于云端人工智能训练,支持CNN、RNN、LSTM、BERT等网络模型以及FP32、FP16、BF16、Int8、Int16、Int32等数据类型。

邃思DTU基于通用AI处理器的设计,具备一定的可编程性,其计算核心拥有32个通用独立自主设计的可扩展神经元处理器(SIP),每8个SIP可以组合成1个可扩展智能计算群(SIC)。

据燧原科技介绍,邃思DTU由12nm FinFET工艺打造,集成了141亿个晶体管,采用2.5D封装,具有16Gbps的PCIe 4.0接口和25Gbps的ESL高速互联。

腾讯对AI芯片的投资:燧原科技发布邃思DTU,性能比肩英伟达V100,用于云端训练 23

云燧T10性能超英伟达V100

云燧

Categories
程式開發

C++之父:爱吃辣子鸡,C++20会非常出色丨极客档案

今年 11 月,C++ 之父 Bjarne Stroustrup 因工作出差来到中国。在上海,InfoQ 记者有幸对 Bjarne 博士进行了一次独家专访。Bjarne …

Categories
程式開發

2020年九大顶级Java框架

本文最初发布于Towards Data Science,由InfoQ中文站翻译并分享。

2020年九大顶级Java框架 32

Java创建于1995年,目前有134861个网站使用Java,如ESPN、SnapDeal、阿里巴巴等。在24年的发展历程中,Java已经证明自己是用于自定义软件开发的顶级通用编程语言。

Java广泛应用于科学教育、金融、法律和政府等行业。在下面的饼图中,您可以看到Java语言在各个行业中的使用情况

2020年九大顶级Java框架 33

这种开源编程语言是面向对象的,其目的是让应用程序开发人员编写的代码可以“一次编写,随处运行”(WORA)。这使得编译后的Java代码可以在每个支持Java的平台上运行。…

Categories
程式開發

Elasticsearch 洩露27億郵件數據,包括多家國內大廠郵箱

2019年12月4日,Comparitech與安全研究人員Bob Diachenko 一起發現了一個數據洩露的Elasticsearch數據庫,其中包括27億個電子郵件地址。 Diachenko稱:“單就數字而言,這可能是我所看到的洩露的數據最龐大的一次。”

事件回溯

SecurityDiscovery網站的網絡威脅情報總監鮑勃·迪亞琴科(Bob Diachenko)發文稱:“我們發現了一個Elasticsearch數據庫洩露,包括了27億個電子郵件地址,其中10億個密碼都是以簡單的明文存儲的。其中大多數被盜的郵件域名來自中國的郵件提供商,騰訊、新浪、搜狐和網易等都在內,發現了包括qq.com,139.com,126.com,gfan.com和game .sohu.com等域名。另外,雅虎、Gmail以及一些俄羅斯的郵件域名也受到了影響。”…

Categories
程式開發

雲原生應用萬節點分鐘級分發協同實踐

引言

2019 年天貓雙11,阿里巴巴核心系統首次實現 100% 上雲。面對全球最大的交易洪峰,阿里雲扛住了每秒 54.4 萬筆的交易峰值,這是“雲原生”與“天貓全球狂歡節”的一次完美聯名。

雲原生應用萬節點分鐘級分發協同實踐 46

(圖為 2019 年天貓雙11 …

Categories
程式開發

Airbnb 遷移到 GraphQL

Airbnb 已經成功地將其大部分 API 遷移到了 GraphQL,從而縮短了頁面加載時間並提供了更直觀的用戶體驗。在 GraphQL Summit 上的演講中,Brie