Categories
程式開發

構建生產可用的推薦系統需要注意哪些問題?


雖然經歷了幾十年的研究和發展,推薦系統已經成了各種現代網絡應用中不可或缺的組成部分,但是推薦系統的研究和應用仍然面臨著很多重要而急迫的挑戰,推薦系統的應用形式和場景也蘊含著更多的可能。本節,我們總結歸納目前推薦系統在研究和應用方面所面臨的一些重要問題,同時指出推薦系統在研究和應用上的一些潛在方向,以使讀者對推薦系統的未來發展擁有一些認識。

推薦系​​統面臨的問題

1.推薦的冷啟動問題

冷啟動問題是困擾學術界和產業界多年的重要問題。對於一個全新的網絡用戶,系統中尚沒有任何可以用來分析其個性化偏好和需求的商品購買或瀏覽交互信息,因此無法向其提供個性化的推薦列表。該問題在傳統的基於數值化評分的個性化推薦方法中尤為突出,並與數據的稀疏性問題互為因果,這是由於網站內的新註冊用戶往往只對非常少量的商品給出過數值化的評分,很難通過如此少量的評分分析用戶的偏好和需求。另外,在大數據環境下,數據的稀疏性顯得愈加明顯和嚴重,這進一步加重了冷啟動問題給實際系統帶來的負面影響。

目前,解決冷啟動問題的方法主要包括如下幾種。

(1)降維技術(Dimensionality Reduction),通過PCA、SVD 等技術降低稀疏矩陣的維度,為原始矩陣求得最好的低維近似,但是實際系統中龐大的數據規模使得降維過程存在大量運算成本,並有可能影響預測和推薦效果。

(2)使用混合推薦模型的方法,通過取長補短彌補其中某種方法的問題。

(3)加入用戶畫像信息和物品屬性信息,例如通過使用用戶資料信息計算用戶相似度,或者使用物品的內容信息計算物品相似度,進一步與基於打分的協同過濾方法相結合,以提供更準確的推薦。

另外,推薦系統中的小眾用戶(gray sheep)問題限制了系統在小眾用戶上取得較好性能。該問題主要表現為有些人的偏好與任何人或絕大多數人都不同,因而難以在大規模數據上採用協同過濾的方式為該用戶給出合理的推薦。目前,小眾用戶推荐一般採用混合式的推薦模型來解決。例如,最常見的方法是把基於內容的推薦和基於協同過濾的推薦結合起來,挖掘小眾用戶在感興趣的物品上的內容信息,並進一步結合可用的相似用戶行為信息給出推薦。然而,該方案在解決小眾用戶推薦的問題上還遠遠不夠,由於長尾效應的存在,系統在小眾用戶上的性能對整體能取得的性能有較大的影響,需要對小眾用戶推薦做進一步的研究和實踐。

2.個性化推薦的可解釋性問題

個性化推薦的可解釋性是長期困擾學術界和產業界的重要問題。由於算法的複雜性和隱性變量方法的大量使用,算法所給出的推薦列表往往並不能得到較為直觀的解釋,也就難以讓用戶理解為什麼系統會給出該物品作為推薦而不是其他物品。

當前的實際系統中往往簡單地給出“看過該物品的用戶也看過這些物品”作為推薦理由,這樣的推薦理由往往無法令人信服,從而降低了用戶點擊和接受推薦結果的潛在可能性。在跨領域的異質推薦背景下,推薦結果的可解釋性顯得更為重要,因為缺乏直觀可信的推薦理由將難以說服用戶進入新的甚至陌生的網站查看異質推薦結果。如何將推薦理由的構建與系統所使用的推薦算法緊密結合,得到更細緻、準確、有說服力的推薦理由,引導用戶查看甚至接受系統給出的推薦,是學術研究和實際系統都需要考慮的重要問題。

3.推薦系​​統的防攻擊能力

推薦系​​統如何應對惡意攻擊(shilling attack)也是實際系統中需要解決的重要問題,該問題實際上是推薦系統中的反垃圾(anti spam)問題。例如,有些用戶或商家會頻繁地為自己的物品或者對自己有利的物品打高分,為競爭對手的物品打低分,甚至註冊大量的系統賬號人工干預某物品的得分,達到人工干預推薦系統推薦效果的目的,這會影響協同過濾算法的正常工作。該問題的被動解決方法是採用基於物品的推薦,因為在惡意攻擊的問題上,基於物品的推薦往往能比基於用戶的推薦具有更好的魯棒性。作弊者總是較少數,在計算物品的相似度時影響較小。當然,我們也可以採用主動的解決辦法,設計有效的垃圾用戶識別技術來識別和去除作弊者的影響。

除此之外,推薦系統的研究和應用中還面臨很多其他的問題和挑戰,如隱私問題、噪聲問題、推薦的新穎性,等等。急需對這些問題投入更多的研究和實踐,從而不斷完善推薦系統的性能和應用場景。

推薦系​​統的新方向

1.基於多源異質信息的推薦

長期以來,推薦系統的各種算法和研究都是基於數值化打分矩陣的形式化模型,該模型的核心是以用戶打分為基礎,而少有對基於用戶文本評論語料進行個性化推薦的研究。基於文本評論的個性化推薦被很多論文提到,但是研究並不深入,這一方面限於文本挖掘技術的研究遇到很多難點,另一方面限於之前網絡上積累的文本信息還不夠多。隨著 Web 2.0 網絡的興起,互聯網上所積累的用戶文本信息越來越多,已經成為一種不可忽略的信息來源,如電子購物網站中的用戶評論、社交網絡中的用戶狀態,等等。這些文本信息對於了解用戶興趣、發掘用戶需求有極其重要的作用,如何充分利用這些數值評分之外的文本信息進行用戶建模和個性化推薦具有重要的意義。

2.推薦系​​統與人機交互的關係

推薦系​​統與用戶的交互方式也是相關領域內研究的熱點方向。目前常見的實際系統一般以推薦列表的形式給出推薦,然而一些研究表明,即便是同樣的打分和評價系統,如果展示給用戶的方式不同,也會對用戶的使用、評價、效果產生一定的影響。例如,MovieLens 小組第一次研究了用戶打分區間、連續打分還是離散(如星標)打分、推薦系統主動欺騙等對用戶使用推薦系統造成的影響。與搜索引擎一樣,推薦系統的界面設計和交互方式也越來越受到研究人員的關注。

3.長尾效應與小眾推薦

長尾效應在推薦系統中的理解和應用可以為進一步提高系統的推薦效果打開新的窗戶。一個推薦系統的性能不能直接以預測評分的精確度測量,而應該考慮用戶的滿意度。推薦系​​統應該以“發現”為終極目標,而現存的一些推薦技術通常會傾向於推薦流行度很高的,用戶已經知道的物品。這樣存在於長尾中的物品也就不能很好地推薦給相應的用戶了。但是,這些長尾物品通常更能體現用戶的興趣偏好。

所以,在推薦系統的設計過程中,不僅要考慮預測的精度,還要考慮用戶真正的興趣點在哪裡。研究人員也開始考慮長尾效應在推薦系統設計過程中的應用,並考慮如何將長尾物品推薦給用戶,以及如何為小眾用戶推薦合適的物品。

4.可解釋性推薦

推薦系​​統的可解釋性成為一個重要的研究課題。隨著實際系統中的數據越來越多、規模越來越龐大、算法越來越複雜,包括推薦系統在內的智能決策系統變得越來越黑箱化,系統難以給出直觀可信的解釋來告訴用戶為什麼要做特定的決策。

在此背景下,推薦系統的可解釋性變得越來越重要,研究人員正在試圖構建可解釋的推薦算法和模型,使得系統不僅可以給出推薦結果,還可以自動給出恰當的推薦理由。

5.推薦系​​統的商業價值

推薦系​​統所能實現的價值也是個性化推薦的一個重要問題。在已有的絕大多數推薦系統中,算法往往只關心準確率、點擊率、購買率等指標,很多推薦算法也是圍繞著對 RMSE、Precision、NDCG 等指標的優化而設計的。然而被推薦的物品未必會被用戶購買,即便被用戶購買,不同物品為系統帶來的價值也是不一樣的。因此,如何直接優化推薦系統對平台的價值也是一個重要的演進方向,有助於幫助推薦系統通過推薦恰當的物品,直接優化和提升系統帶來的實際效益。
例如,阿里巴巴通過直接優化推薦列表的商業價值來構建推薦列表(Pei, et al.,2019),在這一方向上做出了嘗試。

6.多平台協作式推薦

越來越多的生活項目日益網絡化,在網絡上造成了一個個信息孤島:每一個網絡應用平台擁有用戶在該平台或該領域內的行為信息,了解用戶在該平台和領域內的行為偏好,從而可以在該領域內給出個性化的專業服務;然而在不同平台和領域之間,尤其是異質領域(如視頻和購物)之間,用戶的行為線索並沒有被打通,每一個平台和領域沒有其他平台和領域的用戶行為信息,也就難以給出平台之外其他領域的個性化服務。這些獨立的信息孤島將網絡用戶原本完整而流暢的生活時間線割裂,未能形成渾然一體的個性化服務流程,使得互聯網本應在人們日常生活中所起的重要甚至核心作用大打折扣。

因此,如何由互聯網所連接的各個系統協作式地發掘用戶潛在需求,適時地給出跨領域的異質推薦結果和個性化服務成為推薦系統向通用推薦引擎方向發展的重要問題和研究前沿,並將極大地降低人們使用互聯網的時間和精力成本,免去在各個獨立服務之間進行切換和查找的麻煩。更重要的是,不同類型的異質商品或服務之間的信息聯通和相互推薦,蘊含著全新的互聯網運營和盈利模式。例如,通過從歷史數據中進行任務挖掘,旅行機票訂購網站可以通過異質推薦為酒店預訂、車輛租賃、團隊預訂等多種潛在的關聯網站帶來流量,並從中獲得額外收益;視頻服務商可以通過異質推薦給出來自購物網站的商品推薦,從而實現虛擬產業收入與實物商品收入的結合,這對促進產業協作發展和產業整合具有重要意義。

本文內容節選自圖書《大數據智能》,感興趣的用戶歡迎點擊鏈接了解:https://item.jd.com/12603411.html?dist=jd