Categories
程式開發

主動學習:如何用更少的數據做更多的事情?


本文最初發表於Towards Data Science 博客,經原作者Logesh Kumar Umapathi 授權,InfoQ 中文站翻譯並分享。

如果說機器學習項目是冰山的話,那麼位於水下的部分就是項目中的標籤和其他數據工作。好消息是,像遷移學習和主動學習(Active Learning)這樣的技術可以幫助減少工作量。

主動學習已經成為機器學習行業從業者的工具箱的一部分,但在任何數據科學/機器學習課程中,卻很少涉及。在閱讀羅伯特·蒙羅寫的書《環人機器學習》(譯註:目前尚無中文版)後,幫助我正式形成了一些(並幫助我學習了很多)主動學習的概念,而這些概念我一直在機器學習項目中憑直覺使用。

本文寫作目的是向你介紹一種簡單的主動學習方法,稱為“基於熵的不確定採樣”(Uncertainty sampling with entropy),並通過實例證明其有效性。在演示中,我使用了主動學習,僅利用了23% 的實際訓練數據集(ATIS 意向分類數據集)來實現與100% 數據集訓練相同的結果。

是不是迫不及待了?請直接跳到「演示」一節。想了解它是如何工作的?那就繼續讀下去。

原文鏈接:【https://www.infoq.cn/article/mXcck0AtszsjHlo5Mepa】。未經作者許可,禁止轉載。