Categories
程式開發

NLP模型開發平台在輿情分析中的設計和實踐(下)


一、背景介紹

本文中重點介紹NLP模型開發平台在百分點輿情洞察系統(MediaForce)中的設計和實踐。 MediaForce是一款面向政企客戶,提供信息監測、智能分析等多功能的一款SaaS產品。從2014年發展至今,客戶標準化的建立以及數據資產的積累,為開展自動化和智能化打下了堅實基礎。對內要提高生產和運營效率,縮短行為結果的反饋時間;對外要提供個性化服務,提高客戶親密度。

輿情信息是通過關鍵詞檢索來獲取對應的相關數據, 在基於BM25、TF-IDF等傳統信息檢索機制下,只是考慮關鍵詞和文檔的匹配程度,忽略了文檔主題、查詢理解、搜索意圖等因素,致使召回文檔與客戶訴求相差較大。另一方面,在客戶定制化場景下,需要人工對客戶數據進行標籤處理,這是一個極其費時費力的過程。

在一個NLP模型開發任務中,一般包括如下三個大模塊:

NLP模型開發平台在輿情分析中的設計和實踐(下) 1

在早期,主要是圍繞和重複這三個模塊來支持業務。在業務規模小時,人工方式保證了工作的靈活與創新突破,但是隨著業務模式的成熟與增長,逐漸凸顯出人工方式的局限性,主要體現在如下幾個方面:

(1)NLP模型開發任務的增多,無疑增加開發人員的維護工作,尤其是在算法迭代更新、模型版本管理等方面,將是災難性質的。

原文鏈接:【https://www.infoq.cn/article/LaEoXmcGfISh9yoQ5vBv】。未經作者許可,禁止轉載。