爱奇艺
https://www.6aiq.com/article/1614422394959
腾讯音乐
https://cloud.tencent.com/developer/article/2226972
目标: 为不同用户(测试为5万)分别推荐top5的新闻文章(总数36万)
标签:不同用户在不同时间的点击新闻
特征:
整体框架也是:多路召回+排序
1 | # 定义一个多路召回的字典,将各路召回的结果都保存在这个字典当中 |
基于itemcf计算的item之间的相似度sim进行的召回
基于embedding搜索得到的item之间的相似度进行的召回
排序
模型集成
原文: https://storage.googleapis.com/pub-tools-public-publication-data/pdf/45530.pdf
几篇优秀博客:
https://zhuanlan.zhihu.com/p/52169807
https://zhuanlan.zhihu.com/p/52504407
https://zhuanlan.zhihu.com/p/61827629
https://zhuanlan.zhihu.com/p/46247835
下文为本人总结。
把推荐问题转换成多分类问题
where $u \in \mathbb{R}^{N}$ represents a high-dimensional embedding”of the user, context pair and the $ v_j \in \mathbb{R}^{N}$ represent embeddings of each candidate video.
train:
to efficiently train such a model with millions of classes
1.hierarchical softmax,效果不佳
2.采用candidate sampling,correct for this sampling via importance weighting
At serving time
所谓的“多路召回”策略,就是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后再把这些候选集混合在一起后供后续排序模型使用的策略。值得注意的是,每一路召回需要尽可能的保持独立性与互斥性,从而在保证各链路能够并行召回的同时,增加召回的多样性。
平均法:C的计算方法:(0.7 + 0.5 + 0.3)/3
加权平均:假设三种策略的权重指定为0.4、0.3、0.2(人为给定或者算法拟合),则B的权重为(0.4 0.8 + 0.3 0.6 + 0.2* 0)/ (0.4+0.3+0.2)
动态加权法:计算三种召回策略的CTR,作为每天更新的动态权重。但是只考虑了点击率,并不全面。
https://tianchi.aliyun.com/notebook-ai/detail?postId=144452