内容简介 · · · · · ·
深度学习在推荐系统领域掀起了一场技术革命,本书从深度学习推荐模型、Embedding技术、推荐系统工程实现、模型评估体系、业界前沿实践等几个方面介绍了这场技术革命中的主流技术要点。
《深度学习推荐系统》既适合推荐系统、计算广告和搜索领域的从业者阅读,也适合人工智能相关专业的本 科生、研究生、博士生阅读,帮助他们建立深度学习推荐系统的技术框架,通过学习前沿案例 加强深度学习理论与推荐系统工程实践的融合能力。
作者简介 · · · · · ·
王喆,毕业于清华大学计算机科学与技术系,美国流媒体公司Roku资深机器学习工程师,推荐系统架构负责人。曾任Hulu高级研究工程师,品友互动广告效果算法组负责人。清华大学KEG实验室学术搜索引擎AMiner早期发起人之一。主要研究方向为推荐系统、计算广告、个性化搜索,发表相关领域学术论文7篇,拥有专利3项,是《百面机器学习:算法工程师带你去面试》等技术书的联合作者。曾担任KDD、CIKM等国际会议审稿人。
目录 · · · · · ·
1.1 为什么推荐系统是互联网的增长引擎
1.1.1 推荐系统的作用和意义
1.1.2 推荐系统与YouTube的观看时长增长
1.1.3 推荐系统与电商网站的收入增长
1.2 推荐系统的架构
· · · · · · (更多)
1.1 为什么推荐系统是互联网的增长引擎
1.1.1 推荐系统的作用和意义
1.1.2 推荐系统与YouTube的观看时长增长
1.1.3 推荐系统与电商网站的收入增长
1.2 推荐系统的架构
1.2.1 推荐系统的逻辑框架
1.2.2 推荐系统的技术架构
1.2.3 推荐系统的数据部分
1.2.4 推荐系统的模型部分
1.2.5 深度学习对推荐系统的革命性贡献
1.2.6 把握整体,补充细节
1.3 本书的整体结构
第2章 前深度学习时代——推荐系统的进化之路
2.1 传统推荐模型的演化关系图
2.2 协同过滤——经典的推荐算法
2.2.1 什么是协同过滤
2.2.2 用户相似度计算
2.2.3 终结果的排序
2.2.4 ItemCF
2.2.5 UserCF与ItemCF的应用场景
2.2.6 协同过滤的下一步发展
2.3 矩阵分解算法——协同过滤的进化
2.3.1 矩阵分解算法的原理
2.3.2 矩阵分解的求解过程
2.3.3 消除用户和物品打分的偏差
2.3.4 矩阵分解的优点和局限性
2.4 逻辑回归——融合多种特征的推荐模型
2.4.1 基于逻辑回归模型的推荐流程
2.4.2 逻辑回归模型的数学形式
2.4.3 逻辑回归模型的训练方法
2.4.4 逻辑回归模型的优势
2.4.5 逻辑回归模型的局限性
2.5 从FM到FFM——自动特征交叉的解决方案
2.5.1 POLY2模型——特征交叉的开始
2.5.2 FM模型——隐向量特征交叉
2.5.3 FFM模型——引入特征域的概念
2.5.4 从POLY2到FFM的模型演化过程
2.6 GBDT+LR——特征工程模型化的开端
2.6.1 GBDT+LR组合模型的结构
2.6.2 GBDT进行特征转换的过程
2.6.3 GBDT+LR 组合模型开启的特征工程新趋势
2.7 LS-PLM——阿里巴巴曾经的主流推荐模型
2.7.1 LS-PLM 模型的主要结构
2.7.2 LS-PLM模型的优点
2.7.3 从深度学习的角度重新审视LS-PLM模型
2.8 总结——深度学习推荐系统的前夜
第3章 浪潮之巅——深度学习在推荐系统中的应用
3.1 深度学习推荐模型的演化关系图
3.2 AutoRec——单隐层神经网络推荐模型
3.2.1 AutoRec模型的基本原理
3.2.2 AutoRec模型的结构
3.2.3 基于AutoRec模型的推荐过程
3.2.4 AutoRec模型的特点和局限性
3.3 Deep Crossing模型——经典的深度学习架构
3.3.1 Deep Crossing模型的应用场景
3.3.2 Deep Crossing模型的网络结构
3.3.3 Deep Crossing模型对特征交叉方法的革命
3.4 NeuralCF模型——CF与深度学习的结合
3.4.1 从深度学习的视角重新审视矩阵分解模型
3.4.2 NeuralCF模型的结构
3.4.3 NeuralCF模型的优势和局限性
3.5 PNN模型——加强特征交叉能力
3.5.1 PNN模型的网络架构
3.5.2 Product层的多种特征交叉方式
3.5.3 PNN模型的优势和局限性
3.6 Wide&Deep 模型——记忆能力和泛化能力的综合
3.6.1 模型的记忆能力与泛化能力
3.6.2 Wide&Deep模型的结构
3.6.3 Wide&Deep模型的进化——Deep&Cross模型
3.6.4 Wide&Deep模型的影响力
3.7 FM与深度学习模型的结合
3.7.1 FNN——用FM的隐向量完成Embedding层初始化
3.7.2 DeepFM——用FM代替Wide部分
3.7.3 NFM——FM的神经网络化尝试
3.7.4 基于FM的深度学习模型的优点和局限性
3.8 注意力机制在推荐模型中的应用
3.8.1 AFM——引入注意力机制的FM
3.8.2 DIN——引入注意力机制的深度学习网络
3.8.3 注意力机制对推荐系统的启发
3.9 DIEN——序列模型与推荐系统的结合
3.9.1 DIEN的“进化”动机
3.9.2 DIEN模型的架构
3.9.3 兴趣抽取层的结构
3.9.4 兴趣进化层的结构
3.9.5 序列模型对推荐系统的启发
3.10 强化学习与推荐系统的结合
3.10.1 深度强化学习推荐系统框架
3.10.2 深度强化学习推荐模型
3.10.3 DRN的学习过程
3.10.4 DRN的在线学习方法——竞争梯度下降算法
3.10.5 强化学习对推荐系统的启发
3.11 总结——推荐系统的深度学习时代
第4章 Embedding技术在推荐系统中的应用
4.1 什么是Embedding
4.1.1 词向量的例子
4.1.2 Embedding 技术在其他领域的扩展
4.1.3 Embedding 技术对于深度学习推荐系统的重要性
4.2 Word2vec——经典的Embedding方法
4.2.1 什么是Word2vec
4.2.2 Word2vec模型的训练过程
4.2.3 Word2vec的“负采样”训练方法
4.2.4 Word2vec对Embedding技术的奠基性意义
4.3 Item2vec——Word2vec 在推荐系统领域的推广
4.3.1 Item2vec的基本原理
4.3.2 “广义”的Item2vec
4.3.3 Item2vec方法的特点和局限性
4.4 Graph Embedding——引入更多结构信息的图嵌入技术
4.4.1 DeepWalk——基础的Graph Embedding方法
4.4.2 Node2vec——同质性和结构性的权衡
4.4.3 EGES——阿里巴巴的综合性Graph Embedding方法
4.5 Embedding与深度学习推荐系统的结合
4.5.1 深度学习网络中的Embedding层
4.5.2 Embedding的预训练方法
4.5.3 Embedding作为推荐系统召回层的方法
4.6 局部敏感哈希——让Embedding插上翅膀的快速搜索方法
4.6.1 “快速”Embedding近邻搜索
4.6.2 局部敏感哈希的基本原理
4.6.3 局部敏感哈希多桶策略
4.7 总结——深度学习推荐系统的核心操作
第5章 多角度审视推荐系统
5.1 推荐系统的特征工程
5.1.1 构建推荐系统特征工程的原则
5.1.2 推荐系统中的常用特征
5.1.3 常用的特征处理方法
5.1.4 特征工程与业务理解
5.2 推荐系统召回层的主要策略
5.2.1 召回层和排序层的功能特点
5.2.2 多路召回策略
5.2.3 基于Embedding的召回方法
5.3 推荐系统的实时性
5.3.1 为什么说推荐系统的实时性是重要的
5.3.2 推荐系统“特征”的实时性
5.3.3 推荐系统“模型”的实时性
5.3.4 用“木桶理论”看待推荐系统的迭代升级
5.4 如何合理设定推荐系统中的优化目标
5.4.1 YouTube以观看时长为优化目标的合理性
5.4.2 模型优化和应用场景的统一性
5.4.3 优化目标是和其他团队的接口性工作
5.5 推荐系统中比模型结构更重要的是什么
5.5.1 有解决推荐问题的“银弹”吗
5.5.2 Netflix对用户行为的观察
5.5.3 观察用户行为,在模型中加入有价值的用户信息
5.5.4 DIN模型的改进动机
5.5.5 算法工程师不能只是一个“炼金术士”
5.6 冷启动的解决办法
5.6.1 基于规则的冷启动过程
5.6.2 丰富冷启动过程中可获得的用户和物品特征
5.6.3 利用主动学习、迁移学习和“探索与利用”机制
5.6.4 “巧妇难为无米之炊”的困境
5.7 探索与利用
5.7.1 传统的探索与利用方法
5.7.2 个性化的探索与利用方法
5.7.3 基于模型的探索与利用方法
5.7.4 “探索与利用”机制在推荐系统中的应用
第6章 深度学习推荐系统的工程实现
6.1 推荐系统的数据流
6.1.1 批处理大数据架构
6.1.2 流计算大数据架构
6.1.3 Lambda架构
6.1.4 Kappa架构
6.1.5 大数据平台与推荐系统的整合
6.2 推荐模型离线训练之Spark MLlib
6.2.1 Spark的分布式计算原理
6.2.2 Spark MLlib的模型并行训练原理
6.2.3 Spark MLlib并行训练的局限性
6.3 推荐模型离线训练之Parameter Server
6.3.1 Parameter Server的分布式训练原理
6.3.2 一致性与并行效率之间的取舍
6.3.3 多server节点的协同和效率问题
6.3.4 Parameter Server技术要点总结
6.4 推荐模型离线训练之TensorFlow
6.4.1 TensorFlow的基本原理
6.4.2 TensorFlow基于任务关系图的并行训练过程
6.4.3 TensorFlow的单机训练与分布式训练模式
6.4.4 TensorFlow技术要点总结
6.5 深度学习推荐模型的上线部署
6.5.1 预存推荐结果或Embedding结果
6.5.2 自研模型线上服务平台
6.5.3 预训练Embedding+轻量级线上模型
6.5.4 利用PMML转换并部署模型
6.5.5 TensorFlow Serving
6.5.6 灵活选择模型服务方法
6.6 工程与理论之间的权衡
6.6.1 工程师职责的本质
6.6.2 Redis容量和模型上线方式之间的权衡
6.6.3 研发周期限制和技术选型的权衡
6.6.4 硬件平台环境和模型结构间的权衡
6.6.5 处理好整体和局部的关系
第7章 推荐系统的评估
7.1 离线评估方法与基本评价指标
7.1.1 离线评估的主要方法
7.1.2 离线评估的指标
7.2 直接评估推荐序列的离线指标
7.2.1 P-R曲线
7.2.2 ROC曲线
7.2.3 平均精度均值
7.2.4 合理选择评估指标
7.3 更接近线上环境的离线评估方法——Replay
7.3.1 模型评估的逻辑闭环
7.3.2 动态离线评估方法
7.3.3 Netflix的Replay评估方法实践
7.4 A/B测试与线上评估指标
7.4.1 什么是A/B测试
7.4.2 A/B测试的“分桶”原则
7.4.3 线上A/B测试的评估指标
7.5 快速线上评估方法——Interleaving
7.5.1 传统A/B测试存在的统计学问题
7.5.2 Interleaving方法的实现
7.5.3 Interleaving方法与传统A/B测试的灵敏度比较
7.5.4 Interleaving方法指标与A/B测试指标的相关性
7.5.5 Interleaving方法的优点与缺点
7.6 推荐系统的评估体系
第8章 深度学习推荐系统的前沿实践
8.1 Facebook的深度学习推荐系统
8.1.1 推荐系统应用场景
8.1.2 以GBDT+LR组合模型为基础的CTR预估模型
8.1.3 实时数据流架构
8.1.4 降采样和模型校正
8.1.5 Facebook GBDT+LR组合模型的工程实践
8.1.6 Facebook的深度学习模型DLRM
8.1.7 DLRM模型并行训练方法
8.1.8 DLRM模型的效果
8.1.9 Facebook深度学习推荐系统总结
8.2 Airbnb基于Embedding的实时搜索推荐系统
8.2.1 推荐系统应用场景
8.2.2 基于短期兴趣的房源Embedding方法
8.2.3 基于长期兴趣的用户Embedding和房源Embedding
8.2.4 Airbnb搜索词的Embedding
8.2.5 Airbnb的实时搜索排序模型及其特征工程
8.2.6 Airbnb实时搜索推荐系统总结
8.3 YouTube深度学习视频推荐系统
8.3.1 推荐系统应用场景
8.3.2 YouTube推荐系统架构
8.3.3 候选集生成模型
8.3.4 候选集生成模型独特的线上服务方法
8.3.5 排序模型
8.3.6 训练和测试样本的处理
8.3.7 如何处理用户对新视频的偏好
8.3.8 YouTube深度学习视频推荐系统总结
8.4 阿里巴巴深度学习推荐系统的进化
8.4.1 推荐系统应用场景
8.4.2 阿里巴巴的推荐模型体系
8.4.3 阿里巴巴深度学习推荐模型的进化过程
8.4.4 模型服务模块的技术架构
8.4.5 阿里巴巴推荐技术架构总结
第9章 构建属于你的推荐系统知识框架
9.1 推荐系统的整体知识架构图
9.2 推荐模型发展的时间线
9.3 如何成为一名优秀的推荐工程师
9.3.1 推荐工程师的4项能力
9.3.2 能力的深度和广度
9.3.3 推荐工程师的能力总结
后记
· · · · · · (收起)
丛书信息
喜欢读"深度学习推荐系统"的人也喜欢的电子书 · · · · · ·
喜欢读"深度学习推荐系统"的人也喜欢 · · · · · ·
深度学习推荐系统的书评 · · · · · · ( 全部 5 条 )
> 更多书评 5篇
-
推荐系统的迭代 1传统推荐系统 从userCF :依据用户物品共现矩阵,依据用户相似度进行推荐。缺点:用户量大,计算量大,稀疏矩阵能力差。 itemCF:依据共现矩阵,物品相似度进行推荐。缺点:头部物品与其他物品相似度极高,长尾物品推荐不足。 矩阵分解:得到用户隐向量和物品隐向量,两者内积为用户对该物品的评分,解决稀疏矩阵问题泛化增强,缺点:传统SVD分解时间复杂度O(mn^2)。 基于梯度下降矩阵分解;优点:解决时间复...
2020-11-19 18:48:08 2人喜欢
推荐系统的迭代
1传统推荐系统
从userCF :依据用户物品共现矩阵,依据用户相似度进行推荐。缺点:用户量大,计算量大,稀疏矩阵能力差。
itemCF:依据共现矩阵,物品相似度进行推荐。缺点:头部物品与其他物品相似度极高,长尾物品推荐不足。
矩阵分解:得到用户隐向量和物品隐向量,两者内积为用户对该物品的评分,解决稀疏矩阵问题泛化增强,缺点:传统SVD分解时间复杂度O(mn^2)。
基于梯度下降矩阵分解;优点:解决时间复杂度问题,缺点:用户对于好差感官打分不一致,评分bias。
改进基于梯度下降矩阵分解:优点,目标函数增加物品平均打分和用户平均分,缺点:没有加入物品、用户其他特征。
Logistic:优点,将推荐问题转化预测正样本(点击、观看)分类问题,点击概率预估模型,且可融合多种特征,缺点:特征表达能力不强,无法进行特征交叉。
poly2: 优点,暴力进行特征组合 复杂度O(n^2)缺点:线性组合,稀疏特征更加稀疏。
FM:特征两两交叉时引入单特征隐权重向量,作为特征交叉权重 。学习到每个用户、物品的隐向量,泛化能力增强,时间复杂度O(nk)
FFM: 优点:引入特征感知域,相同的特征在与其他特征组合时,如果其他特征来自不同的域,则使用的隐向量不同,进一步增强特征表达能力,时间复杂度O(kn^2)n为隐向量维度 缺点:仍然是两阶特征组合,没有特征高阶交叉。
GBDT+LR:优点,树深超参决定(高阶)特征交叉阶数,端到端的特征工程能力。缺点:无法进行并行计算。
LS-PLM:阿里巴巴推荐模型,混合逻辑回归模型,对受众样本聚类,对每个分类进行逻辑回归,实现上在logistic的目标函数乘以各分类的概率(softMax),模型拟合能力增强。
2深度学习推荐系统
AutoRec:优点,item-antoencoder:使用单层神经网络拟合物品评分向量,简单泛化好。user-auto encoder:拟合用户的评分向量。缺点:特征表达不足。
Deep Crossing:优点:多层网络拟合,embedding层+stacking层(对embedding层向量拼接)+scoring层,embedding层对于稀疏向量稠密话,网络提供特征深度交叉能力。
neuralCF:(广义矩阵分解模型)优点:延伸传统矩阵分解的经验,用多层网络+输出层代替了内积(物品隐向量和用户隐向量内积)缺点:还是基于共现矩阵,没有使用其他特征
PNN:优点:优化deep crossing的stacking层,用乘积形式代替简单的拼接。比neuralCF加入更多的特征。缺点:对特征无差别交叉,忽略原始特征的价值
Wide&Deep:优点:wide部分使用原始特征(这部分特征往往对业务有直接作用),增加模型记忆能力,deep使用全量特征,增加模型泛化能力。
Deep&cross:优点,改进wide&deep将wide部分改为cross网络,增加特征交叉能力。
FM+深度学习:1FNN 优点:使用FM隐向量作为embedding层初始化数据,解决embedding层训练收敛慢的问题,提供embedding预训练思想。2DeepFM 优点:用FM代替wide&deep模型中的wide部分,增强浅层网络特征组合能力。3NFM优点:将FM函数中的二阶交叉改为多层网络实现的f(),解决高阶特征交叉爆炸问题。架构embedding层+特征交叉池化层+隐层+scoring层。4AFM在特征交叉池化层引入attention机制,解决一视同仁的对待交叉特征。
DIN:阿里巴巴电商推荐系统,利用attention机制结合业务,提出将用户行为embedding变成attention(用户行为embedding*候选广告商品embedding(考虑到历史该用户是否点击过某一些商品))*用户行为embedding作为最终的用户行为embedding,更加结合业务场景。
DIEN:加入序列模型,加入用户兴趣历史序列。缺点:序列模型串行计算,线上服务延迟。
强化学习推荐系统:online学习,工程实现瓶颈。
3基于embedding的推荐系统
双塔模型:广义item2vec应用,将用户行为、物品原始特征转变为稠密的embedding表示。缺点:只能应用序列模型
Deepwalk:基于graphembedding方法,利用图结构特点,对node进行embedding
随机策略:有向权重图,p(i-》j)节点i到节点j的边权重/节点i的出边权重和。无向无权图,节点i到节点j的权重为1/节点i的边集合。
node2vec: 调整deepwalk游走策略,采用biased权重策略,更加强调网络的同质特征和结构特征,即距离相近的点embedding尽量相近。
EGES:在deepwalk生成的graph embedding基础上,加入补充信息。解决长尾物品或新物品冷启动问题。解决单纯使用用户购买形成的物品相关图,增加补充信息(side information)例如,物品之间的相同属性,相同类别增加物品之间的边。形成一个物品多个embedding向量,利用权重进行融合。
回应 2020-11-19 18:48:08 -
目录 0. 推荐系统架构 两个最重要的阶段:召回阶段、排序阶段 召回:计算效率、召回率 排序:召回率、精确度、F1等 1. 多路召回策略 热门新闻、兴趣标签、协同过滤、最近流行、朋友喜欢等等 2. 基于embedding召回 经常采用用户embedding和物品embedding内积的方法,获得对物品的打分,从而获得召回列表。 生成embedding的方法:item2vec、graph embedding、矩阵分解、因子分解法(隐向量)等 3.推荐系统中常涉及到的数据 用户行...
2020-11-19 20:02:41 1人喜欢
目录
0. 推荐系统架构
两个最重要的阶段:召回阶段、排序阶段
召回:计算效率、召回率
排序:召回率、精确度、F1等
1. 多路召回策略
热门新闻、兴趣标签、协同过滤、最近流行、朋友喜欢等等
2. 基于embedding召回
经常采用用户embedding和物品embedding内积的方法,获得对物品的打分,从而获得召回列表。
生成embedding的方法:item2vec、graph embedding、矩阵分解、因子分解法(隐向量)等
3.推荐系统中常涉及到的数据
用户行为类数据、关系数据、属性类别或标签数据、内容类数据、上下文信息数据、统计类数据、组合特征数据等。
常常涉及到的数据处理方法:连续数据:离散数据法、非线性处理,类别类数据:one-hot 、multi-hot方法、复杂网络embedding方法,基于模型的端到端的特征工程(gbdt,复杂网络等)
3. 推荐系统中的优化目标
推荐系统都是完成某个商业目标为目的,例如YouTube(用户观看时长),淘宝(CTR+CVR)
4. 冷启动问题
基于规则的冷启动、引导用户注册时增加冷启动特征、用户属性特征粗力度推荐(IP,GPS,第三方数据)、模型冷启动(迁移学校,探索与利用、在线学习)
5.离线评价指标
评估方法:交叉验证、留p法,holdout,bootstrap自助法。
评估指标:准确率,精确度与召回率,F1-score,均方根误差、平均绝对百分比误差,对数损失函数,P-R曲线,ROC曲线
6. 线上评估指标
线上具备计算业务指标的条件,一般线上评估指标选用:点击率,转化率,客单价,留存率,平均停留时长,平均点击个数,播放完成率,播放平均时长,播放总时长等。
线上评估常用方法:A/B test
7. 推荐系统整体知识架构
回应 2020-11-19 20:02:41
-
-
目录 0. 推荐系统架构 两个最重要的阶段:召回阶段、排序阶段 召回:计算效率、召回率 排序:召回率、精确度、F1等 1. 多路召回策略 热门新闻、兴趣标签、协同过滤、最近流行、朋友喜欢等等 2. 基于embedding召回 经常采用用户embedding和物品embedding内积的方法,获得对物品的打分,从而获得召回列表。 生成embedding的方法:item2vec、graph embedding、矩阵分解、因子分解法(隐向量)等 3.推荐系统中常涉及到的数据 用户行...
2020-11-19 20:02:41 1人喜欢
目录
0. 推荐系统架构
两个最重要的阶段:召回阶段、排序阶段
召回:计算效率、召回率
排序:召回率、精确度、F1等
1. 多路召回策略
热门新闻、兴趣标签、协同过滤、最近流行、朋友喜欢等等
2. 基于embedding召回
经常采用用户embedding和物品embedding内积的方法,获得对物品的打分,从而获得召回列表。
生成embedding的方法:item2vec、graph embedding、矩阵分解、因子分解法(隐向量)等
3.推荐系统中常涉及到的数据
用户行为类数据、关系数据、属性类别或标签数据、内容类数据、上下文信息数据、统计类数据、组合特征数据等。
常常涉及到的数据处理方法:连续数据:离散数据法、非线性处理,类别类数据:one-hot 、multi-hot方法、复杂网络embedding方法,基于模型的端到端的特征工程(gbdt,复杂网络等)
3. 推荐系统中的优化目标
推荐系统都是完成某个商业目标为目的,例如YouTube(用户观看时长),淘宝(CTR+CVR)
4. 冷启动问题
基于规则的冷启动、引导用户注册时增加冷启动特征、用户属性特征粗力度推荐(IP,GPS,第三方数据)、模型冷启动(迁移学校,探索与利用、在线学习)
5.离线评价指标
评估方法:交叉验证、留p法,holdout,bootstrap自助法。
评估指标:准确率,精确度与召回率,F1-score,均方根误差、平均绝对百分比误差,对数损失函数,P-R曲线,ROC曲线
6. 线上评估指标
线上具备计算业务指标的条件,一般线上评估指标选用:点击率,转化率,客单价,留存率,平均停留时长,平均点击个数,播放完成率,播放平均时长,播放总时长等。
线上评估常用方法:A/B test
7. 推荐系统整体知识架构
回应 2020-11-19 20:02:41
-
-
目录 0. 推荐系统架构 两个最重要的阶段:召回阶段、排序阶段 召回:计算效率、召回率 排序:召回率、精确度、F1等 1. 多路召回策略 热门新闻、兴趣标签、协同过滤、最近流行、朋友喜欢等等 2. 基于embedding召回 经常采用用户embedding和物品embedding内积的方法,获得对物品的打分,从而获得召回列表。 生成embedding的方法:item2vec、graph embedding、矩阵分解、因子分解法(隐向量)等 3.推荐系统中常涉及到的数据 用户行...
2020-11-19 20:02:41 1人喜欢
目录
0. 推荐系统架构
两个最重要的阶段:召回阶段、排序阶段
召回:计算效率、召回率
排序:召回率、精确度、F1等
1. 多路召回策略
热门新闻、兴趣标签、协同过滤、最近流行、朋友喜欢等等
2. 基于embedding召回
经常采用用户embedding和物品embedding内积的方法,获得对物品的打分,从而获得召回列表。
生成embedding的方法:item2vec、graph embedding、矩阵分解、因子分解法(隐向量)等
3.推荐系统中常涉及到的数据
用户行为类数据、关系数据、属性类别或标签数据、内容类数据、上下文信息数据、统计类数据、组合特征数据等。
常常涉及到的数据处理方法:连续数据:离散数据法、非线性处理,类别类数据:one-hot 、multi-hot方法、复杂网络embedding方法,基于模型的端到端的特征工程(gbdt,复杂网络等)
3. 推荐系统中的优化目标
推荐系统都是完成某个商业目标为目的,例如YouTube(用户观看时长),淘宝(CTR+CVR)
4. 冷启动问题
基于规则的冷启动、引导用户注册时增加冷启动特征、用户属性特征粗力度推荐(IP,GPS,第三方数据)、模型冷启动(迁移学校,探索与利用、在线学习)
5.离线评价指标
评估方法:交叉验证、留p法,holdout,bootstrap自助法。
评估指标:准确率,精确度与召回率,F1-score,均方根误差、平均绝对百分比误差,对数损失函数,P-R曲线,ROC曲线
6. 线上评估指标
线上具备计算业务指标的条件,一般线上评估指标选用:点击率,转化率,客单价,留存率,平均停留时长,平均点击个数,播放完成率,播放平均时长,播放总时长等。
线上评估常用方法:A/B test
7. 推荐系统整体知识架构
回应 2020-11-19 20:02:41
论坛 · · · · · ·
在这本书的论坛里发言以下书单推荐 · · · · · · ( 全部 )
- 豆瓣高分书籍是否名实相符 (无心恋战)
- 数据科学与人工智能 (lyb)
- 中国中产/MC&零售/交互和视觉2 (alenwg_cn)
- 计算机 (徐永冰)
- 补一下科学知识(目前属于我的书) (斯宾诺莎的镜片)
谁读这本书?
二手市场
订阅关于深度学习推荐系统的评论:
feed: rss 2.0
3 有用 探寻可能 2020-06-05 19:37:27
看到第五章就认定是一本好书,而不只是技术书
2 有用 orange 2020-05-02 11:29:38
作者在该领域有大量的思考和总结,深入浅出,自成体系。
1 有用 HazzaC 2020-07-09 23:14:51
非常好的一本书,带我入门了推荐系统,非常感谢作者,这本书最大的优点是成体系,脉络清晰,讲了各种算法演化过程。我准备照着上面的路线慢慢看论文,等我有点积累后,再读一遍这本书,也决定暂时把我的方向定成推荐系统了,希望能做出点东西吧。
2 有用 西西弗斯爱推理 2021-09-18 04:26:12
入门框架书,需要自己找例子去填补章节中的内容
5 有用 亟隐 2020-05-03 23:16:27
圣经呀,终于有本书能把推荐系统是什么讲清楚了
0 有用 KindleFlame 2022-07-21 17:54:15
梳理得很好
0 有用 梦田 2022-07-07 11:39:00
看过最好的一本算法书 对于入门和有一定基础的书帮助都非常大 要是nlp领域也有这样一本书就好了
0 有用 Jeffrey 2022-07-03 12:47:10
深入浅出,系统全面。。。
0 有用 黑星 2022-07-01 13:03:52
很棒的书,之前放在枕边偶尔翻翻,后来还是被我带到工位看了,很多实际遇到的工程问题都在书里有解答,感觉看完我就是大佬了(bushi
0 有用 多喝热水 2022-06-24 12:57:20
从入门到工作一直有在翻阅的书,整理清楚了推荐系统清晰的发展迭代路径,入门建议跟着大方向学,不要在过多的论文里迷路😂