IJCAI 2019 丨利用半參表示算法緩解推薦系統中的冷啟動問題

本文作者：叢末

2019-08-31 19:08

專題：IJCAI 2019

導語：3 個真實數據集、3類對比推薦算法、4 種評價指標上的對比實驗，驗證了該算法的可靠性和魯棒性。

本文是阿里巴巴集團機器智能技術和優酷人工智能平臺合作的論文《Hybrid Item-Item Recommendation via Semi-Parametric Embedding》的解讀，該論文發表在 IJCAI 2019，本文提出結合商品行為 & 內容信息的半參表示算法 SPE，旨在結合 collaborative filtering based 和 content-based 算法，以更好地緩解 I2I 推薦的冷啟動問題。

1 研究動機

由于常見電商、視頻等推薦系統 (淘寶首猜、優酷推薦等) 用戶量巨大, 而且用戶個性化興趣差異明顯, Item-CF 較于 User-CF 有著天然的巨大優勢，它因此被廣泛運用于推薦系統中. 常見的 Item-CF 推薦系統中, 服務器收到用戶訪問請求, 經解析、查詢得到用戶 profile(包括用戶長期畫像、歷史足跡等) 后，通過 Item2Item、tag 等方式進行候選召回，參與后續排序和后處理。其中 Item2Item(I2I) 是至關重要的一環。

I2I 解決的是針對給定商品 (trigger item)，推薦一系列相關商品 (rec_items) 的問題。一方面 I2I 是 feeds 瀑布流等用戶推薦場景的基礎, 另一方面,「為你推薦」、「猜你喜歡」等場景天然就是 I2I 的問題. I2I 在推薦系統中的作用至關重要。

IJCAI 2019 丨利用半參表示算法緩解推薦系統中的冷啟動問題

Behavior-based 的 I2I 矩陣計算通常基于商品之間以往的共同行為 (例如商品被同一個用戶瀏覽點擊過), 它在行為充分的商品上通常有較好的推薦效果。然而對很多新品較多的場景和應用上，例如優酷新視頻發現場景和閑魚這種二手電商社區，由于沒有歷史行為累計，商品的冷啟動問題異常嚴重，behavior-based 算法在這些商品上的效果較差。

冷啟動一直以來都是推薦系統重要的挑戰之一, 常見的 content-based 方法是引入商品的內容信息，利用商品之間的文本、描述、類目等內容信息進行 I2I 相似度矩陣的計算。然而 content-based 方法涉及到商品的特征工程和相似性度量的選擇，需要有相應的領域知識，另外由于非專業賣家、內容作者的積極性和專業能力不夠，商品的特征信息也不夠豐富甚至有誤，content-based 方法的效果差強人意。

因此，本文提出結合商品行為 & 內容信息的半參表示算法 SPE （Semi-Parametric Embedding）, 以緩解 I2I 推薦中的冷啟動問題。

2 方法

2.1半參向量表示(SPE)

與CF-based的矩陣分解算法中使用行為信息建模商品向量的做法不同, 本文同時使用行為和內容信息來建模商品表示, 也即

IJCAI 2019 丨利用半參表示算法緩解推薦系統中的冷啟動問題

其中, v 為商品的向量表示; z 為商品的行為信息表示部分, 每個商品的行為表示各自不同; e 為內容信息表示部分, 通過特征輸入 IJCAI 2019 丨利用半參表示算法緩解推薦系統中的冷啟動問題得到, c 為商品的內容輸入向量(商品的文本、描述、類目等); 2δ 為兩者之間的權重大小, 由當前item上的歷史統計信息(商品曝光、點擊次數等)決定。若當前item行為豐富, δ較大, 最終的向量由z主導; 而新品 item 行為信息少, δ 較小，模型對行為信息的權重加大。

行為向量 z 和內容向量 e 分別為模型中非參數化向量和參數化向量, 結合兩者，作者將其稱作半參向量表示。

2.2 SPE 用于I2I 推薦

本文將半參向量表示應用于 I2I 推薦中, 基于商品的向量表示, 定義相似性度量為

IJCAI 2019 丨利用半參表示算法緩解推薦系統中的冷啟動問題

則可以通過最小化如下目標函數求解

IJCAI 2019 丨利用半參表示算法緩解推薦系統中的冷啟動問題

其中, g 為非線性激活函數的多層感知機, 后兩項為正則化子。

2.3 多層降噪自動編碼機

由于非專業賣家、非專業 UPGC 作者的積極性和專業能力不夠, item 的內容特征信息不夠豐富甚至缺失、錯誤。本文針對參數化向量表示，引入了深度學習中的多層降噪自動編碼機(stacked denoise autoencoder, sDAE), 以學習更魯邦的內容向量表示。則目標函數更新為：

IJCAI 2019 丨利用半參表示算法緩解推薦系統中的冷啟動問題

其中 IJCAI 2019 丨利用半參表示算法緩解推薦系統中的冷啟動問題為內容特征的重構損失。

3 實驗

在實驗部分，論文中共選取了2個 benchmark 和阿里二手交易平臺的真實數據集，分別將半參向量表示框架與 cf-based, content-based, hybrid 方法進行了比較, 選取的指標為 in-matrix(item 在訓練集中出現過)和 out-of-matrix(item在訓練集中未出現過)數據集上的HitRatio@10 和 NDCG@10。詳細結果如下, IJCAI 2019 丨利用半參表示算法緩解推薦系統中的冷啟動問題

此外，實驗中對 SPE 和SPE-sDAE的魯棒性進行了對比, 論文通過對Amazon數據集中的內容特征進行隨機擾動(非零值以corrupt-ratio的概率進行置零)得到不同版本的噪音數據集，

IJCAI 2019 丨利用半參表示算法緩解推薦系統中的冷啟動問題

由圖可見，隨著擾動比率的增大，兩者的指標都在下跌，但是SPE-sDAE比SPE更魯邦，特別是在out-of-matrix的數據集上的優勢更明顯。

4 總結

本文提出了一種半參表示框架，它結合商品的行為信息和內容信息，以達到在維持行為豐富 item 上表現的同時，緩解新發商品上的冷啟動問題。另外本文引入 sDAE 來幫助學習更強力的內容表示，以達到更魯邦的效果。3 個真實數據集、3類對比推薦算法、4 種評價指標上的對比實驗，驗證了該算法的可靠性和魯棒性。

相關文獻參考：

[1]BadrulSarwar, GeorgeKarypis, Joseph Konstan, and John Riedl. Item-based collaborative filtering recommendation algorithms. In Proceedings of the 10th International Conference on World Wide Web, pages 285–295, 2001

[2] Yehuda Koren, Robert Bell, and Chris Volinsky. Matrix factorization techniques for recommender systems. Computer, 42(8), 2009

[3] Yue Shi, Martha Larson, and Alan Hanjalic. Collaborative filtering beyond the user-item matrix: A survey of the state of the art and future challenges. ACM Computing Surveys, 47(1):3, 2014

[4] Hao Wang, Naiyan Wang, and DitYan Yeung. Collaborative deep learning for recommender systems. In Proceedings of the 21st ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pages 1235–1244, 2015 雷鋒網雷鋒網

雷峰網特約稿件，未經授權禁止轉載。詳情見轉載須知。

0人收藏

專題

IJCAI 2019

本專題其他文章

叢末

編輯

發私信

當月熱門文章

Coding 能力，正在顛覆大模型的估值邏輯