Categories
程式開發

最佳NLP工具、庫和服務推薦


在現代文本數據分析中,NLP 工具和 NLP 庫是必不可少的。研究人員和企業使用自然語言處理工具從文本數據分析中提取信息。這種分析包括分析客戶反饋、自動化支持系統、改進搜索和推薦算法,以及監控社交媒體。

現在,市面上有很多NLP工具和服務可用,了解它們的特性是獲得良好結果的關鍵。雖然有些工具非常適合小型項目,但也有些工具更適合從事大數據工作的專家,這完全取決於項目本身。

為幫助大家為自己的項目找到完美的解決方案,我們整理彙編了一份最佳 NLP 工具、庫和服務的列表。在本文中,你將可以找到免費的開源庫、眾包解決方案和專門的註釋公司。

免費 NLP 工具

  • NTLK:Natural Language Toolkit 是一個用於構建 Python 程序以處理人類語言數據的平台。它包括詞法分析、命名實體識別、標記化、詞性標註、句法分析和語義推理。它還提供了一些很好的入門資源。但是,由於 NLTK 在處理大數據時會佔用大量資源,因此推薦用於簡單項目。
  • PyTorch-Transformers:該 NLP庫包含了NLP的預訓練模型。它具有 PyTorch 實現、預訓練的模型權重、使用腳本和轉換工具,包括 BERT、GPT-2、Transformer-XL 和 RoBERTa。
  • TextBlob:TextBlob 構建在 NLTK 的基礎上,就像是一個擴展,簡化了 NLTK 的許多功能,它為任務提供了一個易於理解的界面,包括情感分析、詞性標註和名詞短語提取等。 TextBlob 是一個推薦給初學者的自然語言處理工具,它也具有可擴展性。
  • SpaCy:SpaCy 是一個流暢、快速、高效的開源庫,由Cython編寫。它具有一個簡單的 API、預訓練的詞向量、11種語言的23個統計模型、用於語法和 NER 的內置可視化工具,它的更新時間表也非常一致。
  • Stanford CoreNLP:CoreNLP 用於對文本片段進行語言分析。它提供了7種語言的支持,可擴展性使其成為一個很好的自然語言處理工具,可用於信息抓取、聊天機器人訓練以及文本處理和生成。需要說明的是,它是按照 GNU通用公共許可證 V3 許可的,因此在構建任何專用軟件時,都需要商業許可證。
  • Apache OpenNLP:這個由 Java 編寫的 NLP 庫以其簡單性而備受推崇。它包括標記化、句子分割、詞性標註、分塊、解析和基於感知器的機器學習。然而,Apache 是一個由志願者開發的項目,因此更新計劃是不穩定的。
  • AllenNLP:Allen NLP 是一個基於PyTorch構建的Apache 2.0研究庫,是為那些想要快速簡單地建立語言分析模型的研究人員提供的。 AllenNLP 具有廣泛的文本分析選項,它是一個簡單的NLP工具,也是可擴展的。
  • GenSim:GenSim 是一個用於自然語言處理的免費 Python 庫,是主題建模和文檔相似性比較的推薦選項。此外,它還提供了可擴展的統計語義和語義結構分析。 GenSim 具有高水平的處理速度和處理大量文本的能力。
  • NLP Architect:NLP Architect 由 Intel AI Lab 開發,是一個開源 Python 庫,用於優化 NLP 和探索深度學習拓撲。它旨在使訓練和運行模型成為一個簡單的過程。

對於業餘愛好者、數據研究人員以及有時間在內部執行註釋任務的團隊來說,上述選項非常適合。但是,如果你的項目時間表比較緊迫且有大數據要處理,那麼尋求合格的NLP服務的幫助可能會更簡單、更高效。

下面我們整理匯總了四個 NLP 服務列表,以幫助你滿足數據分析的需求。

在這些 NLP 服務中,你可以找到可定制的時間表、項目管理幫助、訪問專業註釋器以及質量保證。

NLP 服務

  • Lionbridge:作為訓練數據和數據註釋的領先提供商,Lionbridge擁有 500000 名眾包專業人員,能夠使用 300 多種語言進行工作。他們的定制註釋平台使得針對各種用例的數據分析變得容易,並且可以輕鬆滿足特殊的項目需求。 Lionbridge 是快速、大規模進行高質量數據註釋的理想選擇。
  • Amazon Mechanical Turk:AMT 集群是一種廉價、可擴展的 NLP解決方案,用於數據收集和數據標記。由於它們並不提供項目管理、質量保證或定制發票,因此對於那些不需要這些因素的項目來說,AMT 是一個很好的服務。
  • Figure Eight:Figure Eight 現在是 Appen 的子公司,提供了一個機器學習輔助的數據標註平台,能夠處理各種 NLP 服務。 Figure Eight 很適合創建獨特的項目本體。
  • Scale:Scale 提供 NLP 數據註釋服務,包括實體註釋、OCR 轉錄、文本分類和情感分析。通過將人工和機器學習的註釋實踐相結合,它們的分類和內容審核服務是可擴展的。

還是不能確定如何實現文本數據分析解決方案嗎? Lionbridge 可以幫助你定義項目目標,然後根據你的特定需求構建和註釋定制的數據集。

作者介紹:

Hengtee Lim,是供職於 Lionbridge 營銷團隊的作家。他是澳大利亞人,現居日本東京。

本文最初發表在 LionBridge 官網,經原作者 Hengtee Lim 授權,InfoQ 中文站翻譯並分享。

原文鏈接:

https://lionbridge.ai/articles/best-nlp-tools-libraries-and-services/