Categories
程式開發

2020年最值得收藏的60個AI開源工具


2020年已經過去了兩個月,原來喜慶的新年卻一直籠罩在新型冠狀肺炎的陰霾下,草木皆兵。但我們都知道,在全國上下萬眾一心的努力下,這場陰霾終將會消散。在這場終將勝利的戰役結束之前,且讓我們再多點耐心等待,踏實做好積累。為此,InfoQ特梳理了60個2019年至今GitHub上熱門的開源工具,獻給那些對新征程滿懷期待的讀者們。

Flair (頂級NLP庫)

2018年是NLP井噴的一年。像ELMo和谷歌BERT這樣的庫層出不窮,正如Sebastian Ruder所言,“NLP高光時刻已經來臨”,並且這種趨勢一直延續到了2019年。 Flair是另一款出色的NLP庫,技術先進、簡單易懂、操作方便。

2020年最值得收藏的60個AI開源工具 63

Flair由Zalando Research開發及開源,是基於Pytorch的NLP框架。 Flair允許用戶將最先進的自然語言處理模型應用於文本,例如命名實體識別(NER),詞性標註(PoS),意義消歧和分類。

項目地址:https://github.com/flairNLP/flair

face.evoLVe(高性能人臉識別庫)

如今,計算機視覺中人臉識別算法在數據科學領域應用極為廣泛。 face.evoLVe是一款基於Pytorch的“高性能人臉識別庫”。為相關人臉分析和應用提供了綜合功能,包括:

  • 人臉對齊(人臉檢測​​、特徵點定位、仿射變換等);
  • 數據預處理(例如,數據增廣、數據平衡、歸一化等);
  • 各種骨幹網(例如,ResNet、IR、IR-SE、ResNeXt、SE-ResNeXt、DenseNet、LightCNN、MobileNet、ShuffleNet、DPN等);
  • 各種損失函數(例如,Softmax、Focal、Center、SphereFace、CosFace、AmSoftmax、ArcFace、Triplet等等);
  • 提高性能的技巧包(例如,訓練改進、模型調整、知識蒸餾等)。

2020年最值得收藏的60個AI開源工具 64

簡而言之,該庫可以幫助研究人員和工程師快速開發高性能深度人臉識別模型和算法,方便實際使用和開發部署。

項目地址:
https://github.com/ZhaoJ9014/face.evoLVe.PyTorch

YOLOv3

YOLO是一款超快、超精準目標檢測框架。自發布以來迭代更新的幾個版本一次比一次更好。

2020年最值得收藏的60個AI開源工具 65

該庫是YOLOv3在TensorFlow中實現的完整數據管道。它可用在數據集上來訓練和評估自己的目標檢測模型。其核心亮點包括:

  • 有效的tf.數據管道
  • 重量轉換器
  • 極速GPU 非極大值抑制
  • 全訓練管道
  • K-means算法選擇Anchor先驗框

項目地址:
https://github.com/wizyoung/YOLOv3_TensorFlow

FaceBoxes( 高精度CPU實時人臉檢測器 )

計算機視覺領域最大的挑戰之一就是掌握計算資源,不是每個人都有多個GPU。

2020年最值得收藏的60個AI開源工具 66

FaceBoxes是一種新的人臉檢測方法,使用CPU速度和精準度均表現良好。 FaceBoxes通過PyTorch實現。包含安裝、訓練和評估人臉檢測模型的代碼。

項目地址:
https://github.com/zisianw/FaceBoxes.PyTorch

Transformer-XL (谷歌AI團隊開源的NLP框架)

Transformer-XL是由谷歌AI團隊開源的NLP模型Transformer的升級版。建模長期依賴關係是NLP領域的棘手問題。 RNN和Vanilla Transformers也常被用來建模長期依賴關係,但效果都並不理想。谷歌AI團隊開發的Transformer-XL解決了這一問題。這款庫的亮點包括:

  • Transformer-XL學習的長期依賴關係比RNN長約80%,比vanilla長約450%
  • Transformer-XL在語言建模任務的評估期間比vanilla Transformer快1800多倍。
  • 基於建模長期依賴關係的能力,Transformer-XL在長序列上具有更好的困惑度(在預測樣本方面更準確)。

項目地址:https://github.com/kimiyoung/transformer-xl

StyleGAN (生成超逼真人臉)

下圖這些人看起來是不是很逼真?但他們其實並不是真人。這些“人臉”都是由StlyeGAN算法生成的。近幾年GAN熱度不減,但是StyleGAN在某些方面甚至優於GAN。

2020年最值得收藏的60個AI開源工具 67

雖然GANs自發明以來一直在穩步改進,但StyleGAN的進程彷彿更快些。開發人員提出了兩種新的、自動化方法來量化這些圖像的質量,同時也開放了大量高質量的人臉數據集。
關鍵資源如下:

2020年最值得收藏的60個AI開源工具 68

項目地址:https://github.com/NVlabs/stylegan

GPT-2(OpenAI語言模型)

OpenAI今年11月終於發布了15億參數完整版本GPT-2。這款語言模型被不少人認為是2019年“最強通用NLP模型”。

GPT-2 可以生成連貫的文本段落,刷新了 7 大數據集基準,並且能在未經預訓練的情況下,完成閱讀理解、問答、機器翻譯等多項不同的語言建模任務。

項目地址:https://github.com/openai/gpt-2

SC-FEGAN (塗鴉人臉編輯生成對抗網絡)

SC-FEGAN聽起來像另一款GAN庫,沒錯,這的確是基於GAN的人臉照片塗鴉編輯。 SC-FEGAN與StyleGAN的算法一樣出色。

你可以用開發者訓練好的深度神經網絡來編輯所有類型的人臉照片。 SC-FEGAN非常適合使用直觀的用戶輸入與草圖和顏色生成高質量的合成圖像。

2020年最值得收藏的60個AI開源工具 69

項目地址:https://github.com/JoYoungjoo/SC-FEGAN

LazyNLP (用於創建海量文本數據集)

LazyNLP的使用門檻很低——用戶可以使用它爬網頁、清洗數據或創建海量單語數據集。

據開發者稱,LazyNLP可以讓你創建出大於40G的文本數據集,比OpenAI訓練GPT-2時使用的數據集還要大。

2020年最值得收藏的60個AI開源工具 70

項目地址:https://github.com/chiphuyen/lazynlp

Subsync 自動將視頻與字幕同步

是不是經常會因為字幕與視頻不同步而抓狂?這個庫能解決這一問題。 Subsync能使字幕與視頻自動同步(與哪種語言無關),字幕與視頻中的正確起始點對齊。該算法是在Python快速傅里葉變換技術上建立的。

Subsync在VLC媒體播放器中同樣表現出色。該模型的訓練時間只需20到30秒(取決於視頻長度)。

從這樣
2020年最值得收藏的60個AI開源工具 71

變成這樣
2020年最值得收藏的60個AI開源工具 72

FFHQ:Style-GAN論文中用於訓練生成逼真人臉的數據集,分辨率1024×1024的70,000張高質量PNG圖像,在年齡,種族和圖像背景方面存在廣泛差異。

項目地址:https://github.com/smacke/subsync

FFHQ(用於訓練生成逼真人臉的數據集)

Style-GAN論文中用於訓練生成逼真人臉的數據集,包含7萬張分辨率1024×1024的高質量PNG圖像,各年齡段、各種族人群都有,圖像背景也各不相同。

2020年最值得收藏的60個AI開源工具 73

項目地址:https://github.com/NVlabs/ffhq-dataset

BigGAN(BigGAN的PyTorch實現)

不少人對計算機視覺著迷都是因為GAN。 GAN是幾年前由Ian Goodfellow發明的,現在已經發展成一個完整的研究體系。

2020年最值得收藏的60個AI開源工具 74

2018年DeepMind提出了BigGAN概念,但是等了很久才等到BigGAN的PyTorch實現。這款庫也包含了預訓練模型(128×128、 256×256以及512×512)。僅需一行代碼就可安裝:

pip install pytorch-pretrained-biggan

項目地址:https://github.com/huggingface/pytorch-pretrained-BigGAN

SPADE(英偉達開源的繪圖工具)

SPADE是英偉達(NVIDIA)新開源的繪圖工具。利用生成對抗網絡,根據幾根簡單的線條就能生成栩栩如生的圖像。

2020年最值得收藏的60個AI開源工具 75

項目地址:https://github.com/NVlabs/SPADE

SiamMask(實時在線目標跟踪與目標分割統一架構)

這款庫是基於《Fast Online Object Tracking and Segmentation: A Unifying Approach》論文提出的。

SiamMask是一款實時在線目標跟踪與目標分割統一框架。技術簡單、通用、快速高效。它可以對目標實時跟踪。此款庫還包含預訓練模型。

2020年最值得收藏的60個AI開源工具 76

項目地址:https://github.com/foolwood/SiamMask

DeepCamera 世界首個自動機器學習深度學習邊緣AI平台

ARM GPU上的深度學習視頻處理監控,用於人臉識別以及更多方法。將數碼相機變成人工智能相機。使用ARM GPU / NPU的邊緣AI生產級平台,利用AutoML。面向開發人員/兒童/家庭/中小企業/企業/雲的第一個世界級邊緣人工智能全棧平台,由社區烘焙。

整個DeepCamera概念基於自動機器學習(AutoML),所以訓練新模型甚至不需要任何編程經驗。

主要亮點:

  • 人臉識別
  • 人臉檢測
  • 通過移動程序控制
  • 目標檢測
  • 運動檢測

OpenAI Sparse Transformer (NLP框架)

Sparse Transformer是一款預測序列中一下項的深度神經網絡。它包含文本、圖片甚至音頻。該算法使用深度學習中非常流行的注意力機制從序列中提取模式的時長是以前的30倍。

2020年最值得收藏的60個AI開源工具 77

OpenAI提出的這款模型可以使用數百個層對數万個元素的序列進行建模,在多個域中實現先進的性能。

項目地址:https://github.com/openai/sparse_attention

NeuronBlocks (微軟NLP深度學習工具包)

NeuronBlocks 是一款由微軟開發的NLP入門工具包。可以幫助數據科學團隊創建端到端神經網絡通道。這款工具包的設計初衷是為了減少為NLP任務創建深度學習網絡模型的成本。

2020年最值得收藏的60個AI開源工具 78

CenterNet(使用中心點探測的計算機視覺)

CenterNet是一種目標探測方法。總體來講,探測算法是在圖像上將目標以軸對稱的框形式框出。大多成功的目標檢測器都先觀察出目標位置,然後對該位置進行分類,這些方法聽起來似乎很合理,但是實際上還需要進行後期處理。

CenterNet這種方法構建模型時將目標作為一個點。基本上講,檢測器採用關鍵點評估的方式來識別所有框中的中心點。 CenterNet已經被證明比我們從前了解的其他邊界框技術更快、更精準。

2020年最值得收藏的60個AI開源工具 79

項目地址:https://github.com/xingyizhou/CenterNet

BentoML(部署模型工具包)

了解並學習如何部署機器學習模型成為數據科學家必須掌握的技能。 BentoML是一款為數據科學家設計的Python庫,幫助他們包裝和部署機器學習模型。這款工具包可以讓你在5分鐘內將筆記本上的模型走向生產API服務。 BentoML服務可以很容易地部署到眾多主流平台上,例如Kubernetes、Docker、Airflow、AWS、Azure等。

項目地址:https://github.com/bentoml/BentoML

InterpretML(微軟深度學習可解釋性框架)

InterpretML是由微軟開源的用於訓練可解釋模型和解釋黑箱系統的包。可解釋性在以下幾個方面至關重要:

調試模型:為什麼我的模型會出錯?
檢測偏見:我的模型會區別對待目標嗎?
人類與AI合作:我怎樣才能理解和信任模型的決策?
合規性:我的模型符合法律規定嗎?
高風險應用:醫療健康、金融、司法等…

微軟研究人員開發可解釋增強機(EBM)算法幫助提高可解釋性。此EBM技術有較高的精準度和可理解性。 Interpret ML不僅局限於使用EBM算法,它同樣支持LIME、線性模型和決策樹等方法。

可使用下列代碼安裝InterpretML:

pip install numpy scipy pyscaffold
pip install -U interpret

項目地址:https://github.com/interpretml/interpret

Tensor2Robot (谷歌研究團隊開發的存儲庫)

Tensor2Robot (T2R) 是一款用於大規模深度神經網絡訓練、評估和推理的庫。此存儲庫包含分佈式機器學習和強化學習基礎結構。

項目地址:
https://github.com/google-research/tensor2robot

Generative Models in TensorFlow 2 (在Tensorflow 2中實現大量生成模型)

這是一個在Tensorflow 2中實現大量生成模型的小項目。圖層和優化器都是使用Keras。這些模型是針對兩個數據集實現的:fashion MNIST和NSYNTH。編寫網絡的目的是盡可能簡單和一致,同時具有可讀性。因為每個網絡都是自包含在notebook中的,所以它們應該可以在colab會話中輕鬆運行。

該存儲庫包含多個生成模型的TF實現,包括:

  • 生成對抗網絡(GAN)
  • 自動編碼器
  • 變分自動編碼器(VAE)
  • VAE-GAN等

STUMPY(時間序列數據挖掘)

STUMPY是一個功能強大且可擴展的Python庫,可用於各種時間序列數據挖掘任務。

STUMPY旨在計算矩陣輪廓,矩陣輪廓是一個向量,它存儲時間序列中任何子序列與其最近鄰居之間的 z-normalized 歐幾里德距離。

以下是此矩陣配置文件幫助我們執行的一些時間序列數據挖掘任務:

  • 異常發現
  • 語義分割
  • 密度估計
  • 時間序列鏈(時序有序的子序列模式集)

使用以下代碼可以通過pip直接安裝STUMPY:

pip install stumpy

項目地址:https://github.com/TDAmeritrade/stumpy

MeshCNN通用深度神經網絡

MeshCNN是一款用於3D三角網格的通用深度神經網絡。這些網格可用於3D形狀分類或分割等任務。 MeshCNN框架包括直接應用於網格邊緣的捲積,池化和解除層:

2020年最值得收藏的60個AI開源工具 80

卷積神經網絡(CNN)非常適合處理圖像和視覺數據。 CNN近年來風靡一時,隨著圖像相關應用的湧現而興起:物體檢測、圖像分割、圖像分類等,隨著CNN的進步,這些都變成了可能。

項目地址:https://github.com/ranahanocka/MeshCNN

XLNet 大型NLP框架

繼BERT之後,谷歌又推出了一個用於NLP框架——XLnet。這是一款以Transformer-XL為核心的框架,從論文的結果來看,XLnet在問答、文本分類、自然語言理解等任務上大幅超越BERT。開發者放出了預訓練模型幫助用戶更好地使用XLNet。

項目地址:https://github.com/zihangdai/xlnet

MMAction 視頻動作理解工具包

MMAction是一個基於Pytorch的開源視頻動作理解工具包,該工具包採用模塊化設計,支持多種流行的物體檢測和實例分割算法,並且可以靈活地進行拓展,在速度和顯存消耗上也具有優勢。

MMAction可執行下列任務:

  • 在剪輯視頻中識別動作;
  • 完整視頻中的時序行為檢測(通常理解為動作定位);
  • 完整視頻中的時空行為檢測

項目地址:https://github.com/open-mmlab/mmaction

Keras實現CRAFT文本檢測

CRAFT的主要思路是先檢測單個字符(character region score)及字符間的連接關係(affinity score),然後根據字符間的連接關係確定最終的文本行。 CRAFT可以用於處理任意方向文本、 曲線文本、 畸變文本等。

2020年最值得收藏的60個AI開源工具 81

CRAFT的網絡結構與EAST的網絡結構相似:特徵提取主幹網絡部分採用的是VGG-16 with batch normalization;特徵decode模塊與U-Net相似,也是採用自頂向下的特徵聚合方式;網絡最終輸出兩個通道特徵圖,即region score map和affinity score map。

項目地址:https://github.com/clovaai/CRAFT-pytorch

TRAINS 自動化AI實驗管理器和版本控制器

TRAINS能記錄和管理多種深度學習研究工作負載,並且幾乎不需要集成成本。 TRAINS最大的優點就是它是免費的開源項目。工程師只需要編寫兩行代碼就可以將TRAINS完全集成到用戶場景中。 TRAINS與現有主要框架無縫集成,包括:PyTorch、TensorFlow、Keras等,並支持Jupyter筆記本。

可按照如下代碼安裝TRAINS:

 pip install trains

添加可選的雲存儲支持(S3/GoogleStorage/Azure):
將下列兩行代碼添加到你的代碼中:

from trains import Task
task = Task.init(project_name="my project", task_name="my task")

項目地址:https://github.com/allegroai/trains

谷歌研究足球環境

“谷歌研究足球環境”是一款由谷歌研究團隊開發足球遊戲。這款遊戲可以用於訓練人工智能技術系統,讓它能夠解決複雜的任務。

2020年最值得收藏的60個AI開源工具 82

這款遊戲在開發時高度模擬還原了一場真實的足球賽事,包括進球、犯規、角球、點球和越位等事件。開發團隊認為足球能夠在人工智能強化學習方面提供巨大的幫助,因為它需要在短期控制和已經學習到的概念之間做出自然的平衡,例如精準的傳球和高水平的戰略。

項目地址:https://github.com/google-research/football

Multi Model Server

Multi Model Server(MMS)是一個靈活且易於使用、用任何 ML/DL 框架都可進行深度學習模型訓練的工具。使用 MMS Server CLI 或預配置 Docker 圖像來設置 HTTP 端點來處理模型推理請求。

項目地址:
https://github.com/awslabs/multi-model-server

Kaolin(讓3D深度學習研究更簡單的PyTorch庫)

Kaolin的核心是一套可以操控3D內容的有效幾何函數。它可以將以多邊形網格、點雲、有符號距離函數或體元柵格形式實現的張量3D數據集裝入PyTorch。

2020年最值得收藏的60個AI開源工具 83

以PyTorch庫形式實現的Kaolin能夠簡化3D深度學習模型的準備工作,將原來所需的300行代碼減少到只需5行。像這樣的工具可以讓眾多領域的研究人員受益,比如機器人、自動駕駛汽車、醫學成像和虛擬現實等。

項目地址:https://github.com/NVIDIAGameWorks/kaolin

使用PyTorch實現3D Ken Burns

手動創建Ken Burns效果非常耗時,而且十分複雜。現有的方法需要從多個角度獲取大量的輸入圖像。用起來並不理想。使用PyTorch實現3D Ken Burns,在給定單個輸入圖像的情況下,它會通過虛擬攝像機掃描和縮放動畫來對靜態圖像進行動畫處理,並使其受到運動視差的影響。

圖片: https://uploader.shimo.im/f/M3SNaRPhf1gGFqh2.png

項目地址:https://github.com/sniklaus/3d-ken-burns

Plato 騰訊開源的圖計算框架

這款由騰訊開源的圖計算框架Plato可以高效地支撐騰訊超大規模社交網絡圖數據的各類計算,且性能達到了學術界和工業界的頂尖水平,比Spark GraphX高出1-2個數量級,使得許多按天計算的算法可在小時甚至分鐘級別完成,也意味著騰訊圖計算全面進入了分鐘級時代。同時,Plato的內存消耗比Spark GraphX減少了1-2個數量級,意味著只需中小規模的集群(10台服務器左右)即可完成騰訊數據量級的超大規模圖計算,打破了動輒需要上百台服務器的資源瓶頸,同時也極大地節約了計算成本。

2020年最值得收藏的60個AI開源工具 84

項目地址:https://github.com/tencent/plato

Tokenizer

這是一款由 hugging face 發布的可幫助 NLP 進行詞語切分的文本工具。 Tokenizer 可在 20 秒編碼 1GB 文本,適用 Rust、Python 和 Node.js。在 NLP 模型訓練中,詞語標記和切分往往是一大難題。 Tokenizer 能夠訓練新的詞彙,並且進行標記。

推薦通過 Composer 來安裝:

composer require nette/tokenizer

項目地址:https://github.com/nette/tokenizer

DeeperForensics-1.0

商湯研發部門與新加坡南洋理工大學合作,設計了一個新的大規模基準DeeperForensics-1.0 來檢測人臉偽造,該基準是同類產品中最大的,質量和多樣性都很高,比其他數據集更加接近現實世界場景。 100 位計算機專家對 DeeperForensics-1.0 中包含的視頻子集質量進行排名時,報告指出與其他流行的 Deepfake 檢測語料庫相比,DeeperForensics-1.0 在規模上的真實性均領先。研究人員稱 DeeperForensics-1.0 是同類產品中最大的,擁有 60000 多個視頻,其中包含大約 1760 萬幀。

項目地址:
https://github.com/EndlessSora/DeeperForensics-1.0

亞馬遜基於mxnet的開源庫 AutoGluon

亞馬遜 AWS 推出新的基於 mxnet 的開源庫 AutoGluon,這是一個新的開源庫,開發人員可以使用該庫構建包含圖像、文本或表格數據集的機器學習應用程序。只需三行代碼就可以自動生成高性能模型,讓調參、神經架構搜索等過程實現自動化,無需研究人員人工決策,大大降低了機器學習模型的使用門檻。

項目地址:https://github.com/awslabs/autogluon

Lyft Flyte

Flyte 是一款由美國網約車公司 Lyft 開源的自家的雲本地機器學習和數據處理平台。 Flyte 是一個結構化編程和分佈式處理平台,用於高度並發、可伸縮和可維護的工作流。

2020年最值得收藏的60個AI開源工具 85

項目地址:https://github.com/lyft/flyte

Manifold

Uber 開源的 Manifold 是一種與模型無關的視覺工具,它可以顯示特徵分佈的差異(即所觀察到的現象的可測量屬性)。 Manifold 的性能比較視圖可比較模型和數據子集的預測性能。它也是米開朗基羅機器學習平台的一部分,該平台已幫助各種產品團隊分析了無數的 AI 模型。

2020年最值得收藏的60個AI開源工具 86

項目地址:https://github.com/uber/manifold

NNI (神經網絡智能)

NNI (Neural Network Intelligence) 是一個輕量但強大的工具包,幫助用戶自動進行特徵工程、神經網絡架構搜索、超參調優以及模型壓縮。

2020年最值得收藏的60個AI開源工具 87

NNI 管理自動機器學習(AutoML) 的Experiment,調度運行由調優算法生成的Trial 任務來找到最好的神經網絡架構和/或超參,支持各種訓練環境,如本機、遠程服務器、OpenPAI、 Kubeflow、基於K8S 的FrameworkController(如,AKS 等),以及其它雲服務。

項目地址:https://github.com/microsoft/nni

GPipe

GPipe 是一個分佈式機器學習庫,使用同步隨機梯度下降和流水線並行技術進行訓練,適用於任何由多個序列層組成的 DNN。重要的是,GPipe 讓研究人員無需調整超參數,即可輕鬆部署更多加速器,從而訓練更大的模型並擴展性能。核心 GPipe 庫是在 Lingvo框架 下開源的。

2020年最值得收藏的60個AI開源工具 88

項目地址:https://github.com/tensorflow/lingvo

PyText

PyText 是一個基於 PyTorch 構建的 NLP 建模(基於深度學習)框架,核心功能可以支持文本分類、序列標註等神經網絡模型。 PyText 可以簡化工作流程,加速試驗,同時還能促進大規模部署。

2020年最值得收藏的60個AI開源工具 89

項目地址:https://github.com/facebookresearch/pytext

Reformer PyTorch中有效的Transformer

該款Reformer Transformer架構改變了NLP的“版圖”。它催生了大量的NLP框架,例如BERT、XLNet和 GPT-2等。但是我們過去所了解的Transformer框架的規模都是巨大的,成本也非常高,讓很多想要學習和實現它們的人望塵莫及。

2020年最值得收藏的60個AI開源工具 90

GitHub上包含了Reformer的PyTorch實現。該項目的作者提供了一個簡單但有效的示例並開放了整個代碼,用戶可以根據需求搭建自己的模型。

可按照下列指令將Reformer安裝在機器上:

pip install reformer_pytorch

項目地址:
https://github.com/lucidrains/reformer-pytorch

PandaPy (將成為新的最受歡迎的Python庫)

如果您正在處理一個帶有混合數據類型(int、float、datetime、str等)的機器學習項目,那麼您應該嘗試使用PandaPy而不是Pandas。對於這些數據類型,它比Pandas少消耗近三分之一的內存。

用pip安裝PandaPy:

!pip3 install pandapy

項目地址:https://github.com/firmai/pandapy

AVA 阿里巴巴智能可視分析框架

AVA 由螞蟻金服 AntV & DeepInsight、新零售技術事業群 FBI、盒馬 Kanaries 等阿里巴巴集團內多個核心數可視化技術和產品團隊聯合共建。

AVA是為了更簡便的可視分析而生的技術框架。其名稱中的第一個A 具有多重涵義:它說明了這是一個出自阿里巴巴集團(Alibaba)技術框架,其目標是成為一個自動化(Automated)、智能驅動(AI driven)、支持增強分析(Augmented )的可視分析解決方案。
演示案例:

2020年最值得收藏的60個AI開源工具 91

項目地址:
https://github.com/antvis/AVA/blob/master/zh-CN/README.zh-CN.md

fast-neptune(加速機器學習項目進程)

fast-neptune是一個能幫你快速記錄啟動實驗時所需的所有信息的庫,可在Jupyter筆記本上運行。可再現性已經成為了機器學習中的關鍵一環,對於實驗研究和現實應用都至關重要。我們希望在現實應用中得到可靠的結果,跟踪每個測試參數的設置及其結果。

fast-neptune在pypi上可用,所以只需簡單運行下列指令:

pip install fast-neptune

項目地址:https://github.com/DanyWind/fast_neptune

ergo

ergo是從拉丁語“我思故我在 Cogito ergo sum”中而來,這是一款能讓 Keras 機器學習更加簡單的命令行工具。它可以:

  • 用最少數量的代碼在數秒內構建新項目;
  • 編碼樣本、導入和優化 CSV 數據集並且用這些來訓練模型;
  • 在訓練中可視化模型結構、損失和精準函數;
  • 借助差分推理決定每個輸入特徵如何影響精準度;
  • 從服務器導出一個簡單的 REST API 來使用模型。

項目地址:https://github.com/evilsocket/ergo

哪吒

這是華為諾亞方舟實驗室自研的預訓練語言模型,在一些 NLP 任務上取得了 SOTA 的表現。這一模型基於 BERT,可以在普通的 GPU 集群上進行訓練,同時融合了 英偉達 和谷歌代碼的早期版本。哪吒模型已有四種中文的預訓練模型,分別是 base、large 和對應的 mask 和全詞 mask 類型。

項目地址:
https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/NEZHA

TinyBERT

TinyBERT同樣是由華為諾亞方舟實驗室開源的預訓練語言模型,這是一個通過蒸餾方法獲得的 BERT 模型。相比原版的 BERT-base,TinyBERT 比它小了 7.5 倍,推理速度則快了 9.4 倍。無論是在預訓練階段還是特定任務學習階段,TinyBERT 的性能都更好。

項目地址:
https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/TinyBERT

Metaflow

Metaflow 是 Netflix 機器學習基礎架構的關鍵部件,主要用於加速數據科學工作流的構建和部署,Netflix 希望通過開源 Metaflow 簡化機器學習項目從原型階段到生產階段的過程,進而提高數據科學家的工作效率。在過去兩年中,Metaflow 已在 Netflix 內部用於構建和管理從自然語言處理到運營研究的數百個數據科學項目。

Metaflow 也可以與當前主流的 Python 數據科學庫一起使用,包括 PyTorch、Tensorflow 和 SciKit Learn。

項目地址:https://github.com/Netflix/metaflow

ZEN

ZEN 是由創新工場 AI 工程院和香港科技大學聯合研究的一款基於 BERT 的中文預訓練模型。在中文任務中,ZEN 不僅性能優於 BERT,也比之前中文預訓練模型更好。 ZEN 對高概率成詞的 n-gram 添加了獨有的編碼和向量表示,此模型可以提供更強的文本的編碼能力和理解能力。

項目地址:https://github.com/sinovation/zen

Megatron-LM

Megatron 是一款強大的 transformer。目前,它支持 GPT2 和 BERT 混合精度的模型並行、多模訓練。我們的代碼庫能有效地訓練一個在 512 個 GPU 上讓 8-way 和 64-way 數據並行的 72 層、83 億參數 CPT2 語言模型。

研發團隊發現更大的語言模型能夠在短短 5 次訓練中超越當前 GPT2 15 億參數 wikitext。為了訓練 BERT,存儲庫在 3 天內訓練了 64 個 V100 GPU 上的 BERT Large。最終的語言建模 perplexity 為 3.15,SQuAD 為 90.7。

項目地址:https://github.com/NVIDIA/Megatron-LM

RoughViz

RoughViz 是一款很棒的 JavaScript 數據可視化庫,能夠生成手繪草圖或可視化數據,基於 D3v5、roughjs 和 handy。可以按下列指令安裝 RoughViz:

npm install rough-viz

2020年最值得收藏的60個AI開源工具 92

項目地址:https://github.com/jwilber/roughViz

T5 Text-to-Text Transfer Transformer

T5 是谷歌研發的一款文本到文本轉換框架,基於 Transformer。該框架在多個 benchmarks 上的總結、問題回答、文本歸類任務表現突出。開發團隊已經在 GitHub 上開源了 T5 相關數據集、預訓練模型以及所有代碼。 T5 為文本到文本任務的模型訓練和微調提供了非常實用的模塊,開發者可以將它用於未來的模型開發工作中。

2020年最值得收藏的60個AI開源工具 93

項目地址:
https://github.com/google-research/text-to-text-transfer-transformer

Ultra-Light and Fast Face Detector

這是一個超級輕量級的人臉檢測模型,也是非常實用的計算機視覺應用,它的模型大小僅有 1MB,堪稱現象級的開源發布。

項目地址:
https://github.com/Linzaer/Ultra-Light-Fast-Generic-Face-Detector-1MB

NVIDIA Few-Shot viv2vid

vid2vid 能夠將輸入的視頻語義標籤轉換為非常逼真的視頻輸出,比如可以輸入姿勢、談話內容,生成一套完整動作的視頻。

項目地址:https://github.com/NVlabs/few-shot-vid2vid

騰訊分佈式消息中間件TubeMQ

TubeMQ是騰訊開源的分佈式消息中間件系統,專注服務大數據場景下海量數據的高性能存儲和傳輸。相比Kafka依賴於Zookeeper完成元數據的管理和實現HA保障不同,Tube MQ系統採用的是自管理的元數據仲裁機制方式進行,Master節點通過採用內嵌數據庫BDB完成集群內元數據的存儲、更新以及HA熱切功能,負責Tube MQ集群的運行管控和配置管理操作,對外提供接口等;通過Master節點,Tube MQ集群裡的Broker配置設置、變更及查詢實現了完整的自動化閉環管理,減輕了系統維護的複雜度。

項目地址:https://github.com/Tencent/TubeMQ

SandDance 數據可視化工具

SandDance 是微軟研究院推出的以Web 為基礎的數據視覺化應用,並且提供了觸控式的界面,實現使用者和3D信息圖表進行互動,更加特別的是可以以不同的角度不同的方式呈現分析結果,使用戶可以通過可視化的方式更加直觀的接受數據信息。

項目地址:https://github.com/microsoft/SandDance

NeuralClassifier(NLP)神經分類器

神經分類器的設計是為了快速實現分層多標籤分類任務的神經模型,這在現實場景中更具有挑戰性和普遍性。一個突出的特點是神經分類器目前提供了多種文本編碼器,如FastText、TextCNN、TextRNN、RCNN、VDCNN、DPCNN、DRNN、AttentiveConvNet、Transformer encoder等。它還支持其他文本分類場景,包括二進制類和多類分類。

項目地址:
https://github.com/Tencent/NeuralNLP-NeuralClassifier

基於深度學習的CTR預測算法庫DeepCTR-Torch

這是一個免費的Python庫,使用Pyforest可在一行代碼中導入所有python數據科學庫。 Pyforest目前可導入包括pandas、numpy、matplotlib等等眾多的數據科學庫。
Pyforest的使用方式也非常簡單,只要使用pip install pyforest在您的計算機上安裝庫,就可以使用了。您可以在一行代碼中導入所有流行的用於數據科學的python庫:

from pyforest import *

項目地址:https://github.com/8080labs/pyforest