搜尋場景下的智慧實體推薦

導讀:

本次分享題目為搜尋場景下的智慧實體推薦,主要分為四部分講解:

場景介紹及概覽

實體推薦相關性

稀疏資料下的實體召回

多領域多場景下的實體推薦

01

場景介紹及概覽

1. 場景介紹

首先是整體場景介紹和概覽,我們的實體推薦是推薦與query相關的實體,並聚合為不同的維度呈現出來。

① 通用推薦

舉例:query為“劉德華”,推薦相關的人物與影視。

② 垂直領域推薦

舉例:query為影視領域時,推薦相關電視劇及同演員影視;query為小說領域時,推薦相似小說、同作者小說等。

下圖右下角我們在小說閱讀器場景下實體推薦的嘗試。

搜尋場景下的智慧實體推薦

2. 產品技術框架

下面介紹我們的整體技術框架,主要分為:基礎資料、底層能力、推薦系統、應用場景四部分。

① 基礎資料

在基礎資料上會使用原始日誌,包含搜尋日誌、曝光點選;還會接入知識圖譜、垂直靈犀、垂直網站以及doc內容資訊。

② 底層能力

在底層能力上,對於query會做文字理解和實體理解工作,文字理解工作包含意圖判斷、實體識別以及實體消歧,實體理解包含實體質量、實體分類以及實體關聯。

③ 推薦系統

在基礎資料和底層能力之後,進入到推薦邏輯之中。在推薦系統中主要分為召回、排序和質量控制三個部分。在召回部分主要採用多路召回佇列的方式,比如基於協同過濾的方法、基於內容的方法以及基於語義或知識圖譜的方法等。排序的過程主要是透過CTR融合多路召回佇列,針對不同的業務場景會考慮使用者體驗以及整體的多樣性做重排。質量控制中會將質量較差或者比較敏感的資訊過濾掉。

④ 應用場景

在應用場景中,除了在結果頁搜尋場景中應用,也在QQ瀏覽器內其他場景進行了嘗試,比如小說閱讀器,百科以及第三方頁面等,都有一定的效果。

搜尋場景下的智慧實體推薦

——

02

實體推薦相關性

實體推薦需要保證與query的相關性是合理的,在這種情況下,我們產出了自己的方案。

1. 使用者查詢

在搜尋場景下,使用者的查詢行為是主動行為,一般帶著比較明確的意圖;與之相對應的推薦結果是被動接收的,本身對於推薦的實體沒有明確的預期。在這樣的情況下:

我們既要保證推薦的結果與query是相關性的,也要保證開放性,讓使用者獲取到新的知識。

採用的方案:對query預測隱含的類別,然後對最終的推薦結果做限制。

我們瀏覽了使用者大量的查詢詞之後,將query主要分為三大類:

query不直接包含實體,但隱藏著對實體的需求

。比如:query為“中國特色的運動會吉祥物”,使用者對虛擬人物類實體有需求。

query包含單/多個實體

。比如:query為“人世間劇情介紹”,使用者需求為影視類實體。

query就是實體名稱

。比如:query為“天龍八部”,在知識圖譜中對應多個實體ID,需求的可能性較多。

搜尋場景下的智慧實體推薦

2. 補充多場景資訊,豐富query內容

query本身是一個較短的文字,蘊含資訊量少,較難預測,因此補充多場景資訊,以達到豐富query內容的目的。比如:query為“艾爾登法杯”,是一個新詞,查詢詞的熱度陡增,訓練資料無積累,純文字識別難度大,因此我們引入了知識圖譜和搜尋場景的特徵。在知識圖譜特徵中,將“艾爾登法杯”的屬性融合進去;結合搜尋場景的特徵,我們將點選的標題和站點資訊融合,輔助我們識別意圖。

搜尋場景下的智慧實體推薦

3. 結合使用者會話內的前序行為,輔助判斷查詢詞指向

針對部分多義項的實體名稱,我們結合使用者會話內的前序行為進行判斷。比如:query為“天涯明月刀”,可以指向遊戲、書籍、影視等,此時我們根據使用者歷史查詢行為進行判斷。若使用者A歷史行為包含遊戲查詢詞,那麼此時選擇遊戲實體的機率更高;使用者B歷史行為中點選書籍站點,那麼此時選擇書籍實體的機率更高;若使用者沒有前序行為,將最熱門的實體作為兜底策略。

搜尋場景下的智慧實體推薦

4. 融合

將前面搜尋場景特徵、知識圖譜特徵、使用者前序行為特徵進行融合。將這些特徵分別做embedding對映,上層透過多塔融合特徵,每個塔單獨負責預測每一個類別的機率,再透過動態設定各個類別的閾值,判斷最終是否出現此類別,後續通過出現的類別控制召回。

搜尋場景下的智慧實體推薦

——

03

稀疏資料下的實體召回

確認了使用者query需求之後,進入召回階段。我們發現在上述方案下,對於頭部查詢詞有較好的覆蓋情況。相對熱門查詢詞,針對冷門查詢詞或實體的召回比較困難,因此如何緩解稀疏資料下的實體召回是我們深入討論的問題。

1. 搜尋場景下資料的稀疏性

透過分析整體的資料,將資料的稀疏性分為兩個方面:

查詢詞的稀疏性

:冷門查詢詞或者新出現查詢詞沒有資料積累,查詢詞熱門但積累實體不足,因此召回困難。比如:query為“冰墩墩”,使用者搜尋的query都圍繞“冰墩墩”、“雪容融”展開,這種情況下可挖掘的實體有限,但存在著深層可激發的興趣點還有“其他冬奧會吉祥物”。

實體的稀疏性

:由於馬太效應,熱門實體反覆推薦,新鮮感弱化;另一方面是基於長尾理論,大量冷門實體很少被推薦,但並不代表冷門實體沒有需求,因此冷門實體可以用作啟用使用者深層興趣,激發使用者更多的需求。

搜尋場景下的智慧實體推薦

針對這兩種稀疏性,我們產出了不同的解決方案:

① 查詢詞稀疏性解決方案

將原始query轉化為召回能力強、相似度高的query補充召回。轉化過程中主要使用三條路徑:

itemCF

:藉助使用者行為,挖掘有關聯的,但字面不一定相似的query。比如使用者搜尋“谷愛琳滑雪”,此時由於使用者對人物的不熟悉出現了錯別字,我們將其糾正為“谷愛凌個人簡介”。

IR

:倒排索引的方式。我們對query文字分詞,挖掘字面相似的query。比如“谷愛琳滑雪”可以召回“谷愛凌簡介”。

SR

:基於雙塔的語義模型。召回語義相近,但發散性更好的query。比如“谷愛琳滑雪”可以召回“谷愛凌國籍”等。

在我們的場景下,我們既要考慮轉化後的query與原始query的相似性,也要考慮query本身召回實體的能力。因此我們在訓練雙塔模型時,將query本身召回實體能力作為約束條件。首先透過query的歷史表現擬合分數,歷史表現包含實體點選、返回實體個數等特徵;然後將擬合後的分數作為輔助目標,在學習過程中,將預測的分數和擬合的目標分數做差值,將差值融合到loss中。這樣的模型更適合我們的實體推薦場景。

搜尋場景下的智慧實體推薦

搜尋場景特點:大部分以核心實體展開。在此特點下,我們既要挖掘相似的query,也要挖掘核心實體輔助召回。因此引入了實體連結方法。

實體識別

:我們引入知識圖譜屬性構造別名字典,同時根據使用者搜尋行為反饋輔助識別,最後使用NER的方式做通用實體識別補充。

場景適配

:包含核心實體判斷和意圖類別匹配。只有核心實體我們才會保留,同時判斷query的意圖和實體的類別是否匹配。

實體消歧

:得到候選實體後,需要進行實體消歧。考慮實體embedding、實體屬性、實體描述、同時考慮搜尋場景下百科的熱度、query特徵、doc特徵等。

搜尋場景下的智慧實體推薦

② 實體稀疏性解決方案

實體在知識圖譜中呈現出圖的結構,我們選擇使用GNN實現實體embedding泛化。首先根據使用者session、知識圖譜關聯和doc內容構建實體關係圖;然後對正負樣本取樣,生成最終的訓練集合。

實體關係圖構建

。基於使用者session可以得到使用者熟知的關係,基於知識圖譜可以補充未知知識,基於網頁或者資訊流內容的方式可以挖掘出現頻率較高的實體對,補充具有時效性的關係和新奇的知識。

搜尋場景下的智慧實體推薦

正負樣本生成

。正樣本取樣使用有偏動態遊走的方式。透過負樣本的最佳化豐富整體訓練資料。負樣本包含easy樣本和hard樣本,easy樣本透過隨機負取樣和熱度負取樣的方式得到,hard樣本由兩種取樣方式得到,第一種是透過同類型實體熱度負取樣和top鄰居節點型別熱度負取樣的方式得到,第二種是透過加長步數降低q值隨機遊走,遊走到的節點按次數排序,選取末端節點作為負樣本。

搜尋場景下的智慧實體推薦

訓練過程存在冷門實體訓練不充分情況,於是需要補充實體的side info,包含實體類別、實體上位詞、實體關鍵詞;然後透過Attention動態調整特徵權重。

搜尋場景下的智慧實體推薦

存在問題:僅考慮當前節點資訊,泛化能力受到遊走正樣本限制。

因此,我們引入GraphSAGE模型的思想引入當前節點的鄰居節點資訊來豐富表徵。

搜尋場景下的智慧實體推薦

以下是我們模型的結構:

搜尋場景下的智慧實體推薦

根據場景特點做了最佳化,在GraphSAGE中,在Sample方面我們嘗試使用不同階鄰居,最終採用K=2,以保證相關性和訓練迭代效率;改變原有均勻取樣的方式,最佳化為30%的均勻取樣和70%的熱度取樣。在Aggregate時,採用attention機制聚合取樣鄰居,考慮不同鄰居對當前節點的影響。將EGES模型embedding作為輸入,藉助預訓練優勢,防止區域性最優問題。

搜尋場景下的智慧實體推薦

——

04

多領域多場景下的實體推薦

在引入了實體的Graph embedding後,透過向量檢索的方式豐富整體的召回,再結合基於使用者行為、知識圖譜的召回方式,就獲得了多路的召回佇列。然後進入排序階段。由於實體含有不同的類別和屬性,且query可以對映到不同的領域,因此需要對多領域多場景的推薦做適應性的策略。

1. 多維度特徵建設

多維度的特徵建設主要有query維度、實體維度和聯合維度。

query維度

:引入query關鍵詞、query意圖、query點選資訊、同時考慮query本身需求多樣性。

實體維度

:考慮實體質量、歷史表現、確認搜尋結果頁優質。

聯合維度

:考慮歷史表現、query和文字的相似度、query與實體察覺度。

搜尋場景下的智慧實體推薦

2. 多領域模型建設

場景特點1

: 不同領域的實體屬性不同。

場景特點2

: 類別間資料不平衡,熱門類別資料充分,冷門類別資料不足。

搜尋場景下的智慧實體推薦

針對場景特點,最佳化我們的模型結構。

將query特徵、通用實體特徵共享,以保證這部分特徵訓練充分;對於不同領域的特徵,具有獨享的特徵;每部分特徵都含有專門的網路進行預測。

搜尋場景下的智慧實體推薦

3. 多場景維度細化

針對不同的場景,透過維度細化提升使用者體驗。在我們的推薦場景下,除了圖片、名稱、描述之外,還提供類別提示。

類別作用

:輔助理解推薦邏輯、幫助使用者瞭解同類實體。因此,細化類別後,使用者會有相應感知。

細化類別

:引入知識圖譜資訊,知識圖譜中實體類別體系及概念體系。

搜尋場景下的智慧實體推薦

今天的分享就到這裡,謝謝大家。

分享嘉賓:陳溪 騰訊 研究員

編輯整理:吳曉慶 東南大學

出品平臺:DataFunTalk

01/分享嘉賓

搜尋場景下的智慧實體推薦

陳溪|

騰訊 研究員

本科畢業於上海交通大學,南加州大學碩士。畢業後加入搜狗,參與了自動補全、搜尋推薦等產品相關的研發工作。目前就職騰訊,負責QQ瀏覽器中實體推薦相關產品的最佳化。

02/關於我們

DataFun:

專注於大資料、人工智慧技術應用的分享與交流。發起於2017年,在北京、上海、深圳、杭州等城市舉辦超過100+線下和100+線上沙龍、論壇及峰會,已邀請超過2000位專家和學者參與分享。其公眾號 DataFunTalk 累計生產原創文章800+,百萬+閱讀,14萬+精準粉絲。