内容简介 · · · · · ·
近两年来,伴随着BAT纷纷涌入自媒体平台,自媒体发展可谓迎来爆发。自媒体平台火爆起来是从今日头条异军突起而引发的。它是一款基于数据挖掘的推荐引擎产品,为用户推荐有价值的、个性化的信息,是国内移动互联网领域成长最快的产品服务之一。推荐引擎也将迎来高速发展,针对推荐引擎的优化技术也将会迎来新的机遇。
本书作者从事推荐引擎相关的内容分发相关工作,在书中对内容推荐系统进行了介绍,书的最后,介绍了自媒体如何利用平台的内容推荐系统实现流量最大化,并进而实现收益最大化。
作者简介 · · · · · ·
闫泽华,简书签约作者。知乎知识市场产品总监,负责内容付费的产品运营工作。
曾任今日头条资深产品经理、“凯叔讲故事”技术负责人和百度搜索架构工程师。在今日头条工作期间,曾先后负责头条视频的数据流和策略分发,头条号粉丝变现相关业务和微头条的策略分发业务,历经了头条视频和粉丝业务快速增长的全过程。
目录 · · · · · ·
Part01 关于内容推荐
走近内容推荐
推荐系统架构初探
YouTube 和 Netflix 推荐架构参考
基于推荐架构的优化启示
推荐的起点:断物识人
断物
识人
推荐算法:人以群分、物以类聚
物以类聚:基于内容属性的相似性推荐
人以群分:基于用户行为的协同过滤
从算法到应用
场景划分
推荐系统评估指标
连接内容与人
冷启动
兴趣探索
自媒体与平台
常见的推荐问题
推荐重复
推荐密集
易反感内容
时空限定内容
带着偏见看推荐
信息茧房
推荐会导致 Low?
三分天下?编辑、算法与社交
面对推荐系统
人机大战:效率与目标之争
数据分析驱动产品迭代
个性化的好 与 好的个性化
Part02 关于自媒体
好内容为什么没人看?
自媒体的数据分析
他山之石:BuzzFeed 简介
内容阅读分析
粉丝增长分析
自媒体运营
内容快销:标题党的二三事
推荐平台优化:从 SEO 到 REO
粉丝运营:新时代的新问题
全平台运营:从小作坊到 MCN
自媒体变现
变现入门:平台分成
广告变现:品牌的溢价
自营电商:隔行如隔山
内容付费
缘何付费,规模几何
内容付费平台展望
· · · · · · (收起)
喜欢读"内容算法"的人也喜欢的电子书 · · · · · ·
喜欢读"内容算法"的人也喜欢 · · · · · ·
内容算法的话题 · · · · · · ( 全部 条 )



内容算法的书评 · · · · · · ( 全部 15 条 )

算法永远没可能比你更了解你
这篇书评可能有关键情节透露
标题是观点,下面是一些💡时刻 想象一下,站在推荐系统之城前的你被抽离出一个数字的躯体。你找到一面镜子端详自己,却惊诧地发现自己的身体已被无数数据所组合:科技10%、篮球4%、历史1%、自然0.3%……你仔细观察,甚至发现了很多连你自己都没有注意到的细节:虽然热爱旅游... (展开)
需要突破的不是推荐系统建造的「信息茧房」,而是你的「认知局限」
这篇书评可能有关键情节透露
这本前头条资深运营写的书,对推荐系统架构、内容分发和自媒体进行了深入浅出的拆解,缓解了我对于“被推荐系统操控”的焦虑 1⃣️ 推荐算法会考虑多样化,好的内容分发系统,会在短期内牺牲点击率数据,换取更全面的用户画像数据沉淀,也会尝试把某类用户未明确表达兴趣的... (展开)
一本不错的策略产品入门书籍
这篇书评可能有关键情节透露
正式接触产品工作之前,以为产品就是做APP。首次实习接触产品工作,发现产品分类如此丰富。对于C端交互有些迟钝的我,似发现新大陆一般。 回到这本书,这是一本很不错的策略产品入门书籍,介绍了很多搜索推荐的逻辑和运作方式。书籍前半部分相对通用,后半部分更加针对平台和用... (展开)
不错的推荐系统基础入门书
> 更多书评 15篇
-
在脸谱网、微博、微信覆盖了越来越多的用户之后,内容的分发逐步去中心化:每个人都可以创作内容从而成长为自媒体,每个人都可以借助社交关系评论、转发从而完成内容的传播。信息的传播权从传统的精英编辑让渡到每个普通受众,相当于每个人都成了编辑,成了内容分发的中心。 社交分发首次让信息传播变成“千人千面”。每个用户都有了个性化的内容消费。
2019-12-17 20:44:54
-
lewthonclitus (Monster, release my master!)
完善用户画像既可以通过尽可能多的外部渠道数据塑造用户来实现,也可以借助产品设计和运营活动引导用户多沉淀行为来实现。以支付宝为例,一次过年的集五福活动,就让它收集了数以亿计的关系链数据。而紧随其后的蚂蚁森林、蚂蚁庄园等轻社交游戏,间接地丰富了用户的线下支付数据、用户的健康数据等。 238-240 规则是最快的上线生效途径,可以用于纠偏、提权等操作。 258-259 从长线来看,人力所能覆盖的规则语义和逻辑复杂度是...2019-05-18 16:20:27
完善用户画像既可以通过尽可能多的外部渠道数据塑造用户来实现,也可以借助产品设计和运营活动引导用户多沉淀行为来实现。以支付宝为例,一次过年的集五福活动,就让它收集了数以亿计的关系链数据。而紧随其后的蚂蚁森林、蚂蚁庄园等轻社交游戏,间接地丰富了用户的线下支付数据、用户的健康数据等。
238-240
规则是最快的上线生效途径,可以用于纠偏、提权等操作。
258-259
从长线来看,人力所能覆盖的规则语义和逻辑复杂度是无法胜过机器的。
268-269
分类是树状的,是自上而下依次划分的。在分类体系里,每个节点都有严格的父类继承关系,在兄弟节点层都具有可以被完全枚举的属性值。比如,将人类属性基于性别划分为男女,就能够覆盖全部人类属性了。
294-296
通常,我们建议由专家系统进行编辑分类,这样才能够最大化分类结构的可用性。
301-302
歌曲体系被抽离出450个标签,细化到如主唱性别、电吉他失真程度、背景和声类型等。每一首歌曲都会经由工作人员耗时二三十分钟,有选择性地标注一些标签,并以0~5的分值代表这一标签的表征程度。
310-312
由于用户的多样性和编辑的开放性,用户标签系统需要经过特定的清洗和归一处理。
319-319
基于某一维度的特征将相关物品组成一个集合,并告诉你这个新的物品同哪个集合相似。
336-337
静态用户画像数据:用户独立于产品场景之外的属性,如性别、学历、年龄、婚育状况、常住位置、教育程度等。
367-368
作者层面的相似性(基于订阅或偏好关系),内容层面的相似性(如关键词、话题、类目、聚类、标签等)。
408-409
出现频率越高的标签区分度越低,反之亦然。
416-416
基于内容属性推荐的好处在于,只依赖物品本身的特征而不依赖用户的行为,让新的物品、冷僻的物品都能得到展示的机会。
418-419
基于内容属性推荐的好处在于,只依赖物品本身的特征而不依赖用户的行为,让新的物品、冷僻的物品都能得到展示的机会。其存在的问题在于,推荐质量的优劣完全依赖于特征构建的完备性,但特征构建本身是一项系统的工程,存在一定成本。
418-421
基于内容属性推荐没有考虑用户对物品的态度,用户的品位和调性很难得到诠释和表达。
422-423
但对新闻推荐系统、社交性推荐系统等而言,其物品是海量和频繁更新的,故而基于用户的协同也有着相应的用武之地。
457-458
考虑到存在家庭账号共享的行为,算法也会进一步基于设备信息来推断当前这一用户是谁,从而展示相应的观看历史。
490-491
有着“交互界面 > 数据 > 算法”的说法。
515-516
有推荐展示的内容占整体内容量的比例,或整个内容分发体系的基尼系数[1]。
526-527
用户端的内容消费量与长期留存、作者端的活跃度等。
535-536
如果只有全局内容分发多样性指标而没有个体多样性指标,那么很可能出现全局内容基尼系数不高,但个体多样性体验极差的情况(如爱看足球的人看到了各种小众的足球赛事内容,但看不到自己感兴趣的内容)。
541-543
一对一用户访谈(One-on-One Interviews),面向常住外包团队(千量级)的人工评估(Feed Quality Panel),面向普通用户(万量级)在应用内投放的问卷(Global Surveys)。
547-549
(1)给出两篇内容,让用户进行点对点的对比。 (2)给单篇内容提供打分选项,建议用户从内容与自身偏好的相关性、内容的信息量等角度给予1~5分的评分。 (3)以提出开放性问题的方式来收集用户对自己信息流的反馈。
549-552
如果我们假设一篇新内容要经过100次阅读才能得到相对可信的内容画像,新用户同样需要完成100次阅读之后才能够建立起可用的用户画像。那么,一个最直观的问题就是:怎样达成这100次有效的阅读?
564-566
内容消费维度包括作者层和内容层两方面:作者层内容消费维度是指,作者的粉丝群体更应该看到该作者的新内容,一个过往表现更好的作者可以得到更高的冷启动推荐量;内容层内容消费维度是指分类信息、关键词、命中的实体和话题等,用于判断内容与用户的偏好是否匹配。
577-579
对小视频应用(抖音、快手)来说,更适合突出创作者主体,以竖屏的方式展示;对于高质量后平台强推的作品,以预览动图作为封面可以增强其吸引力。
613-615
对短内容而言,在冷启动阶段应尽量放大作者的权重,优先推荐给其粉丝和准粉丝群体,用以证明内容消费的价值。
616-617
对视频而言,长度信息、画面清晰度都可以成为补充的特征;对短内容而言,在冷启动阶段应尽量放大作者的权重,优先推荐给其粉丝和准粉丝群体,用以证明内容消费的价值。
616-617
系统在新用户的冷启动推荐上也会更偏向于重大兴趣的收敛而非发散,
637-638
在设备层上,如厂商、型号都是必备信息。对安卓设备来说,某些品牌的用户在统计学上具有一定的可区分度,如锤子手机、一加手机的用户同VIVO、OPPO手机的用户就存在一定差异。 在权限层上,移动设备可补充信息的丰富程度远高于PC(个人电脑)端:设备标志信息可以帮助判断用户是否是卸载重装的老用户;地理位置权限能够帮助确定用户的当前位置、常住位置、行为轨迹。
641-645
Wi–Fi信息可以同时用于确定位置信息,并进一步将处于同一Wi–Fi环境下的用户圈定出来(通常是家庭、工作关系,如果同一Wi–Fi下的用户数量不多,那么这些用户彼此间可能有更亲密的关系)。 基于社交关系的应用还会申请读取用户的通信录信息,以此补全用户的社交关系网络,并通过用户A的手机通信录信息,反推其余手机用户的真实姓名。比如,系统已经知道了我的手机号,那么在我的朋友也上传了他们的通信录的情况下,多个朋友对我的备注信息是B,就可以大概率确认我的真实姓名是B。 由于部分安卓手机用户的权限意识较弱,很多应用还会申请如读取目录或已经安装的软件等权限,通过文件目录反推用户已经安装的应用情况,以此来确定用户的偏好信息。比如:如果用户安装了大姨妈、蘑菇街之类的应用,则该用户极有可能是女性用户;如果用户安装了宝宝树、亲宝宝之类的应用,则有可能是有孩子的用户。
645-653
装机渠道:在安卓设备上,通过不同的市场渠道、不同的广告素材转化而来的用户具有不同的特点。比如,通过金融相关素材转化的用户,显然会对金融类内容更感兴趣。在iOS(苹果公司的移动操作系统)设备上,也能通过一些类“邀请码”的设计方式来回溯用户是通过什么渠道安装的。 登录方式:通过第三方登录能够更快速地获取用户的基本信息。国内有微博、微信的联合登录,国外有脸谱网的联合登录。其中,脸谱网支持获取的权限信息如图5–3所示,有助于分析用户的好友信息、工作信息、教育背景等。 图5–3 脸谱网支持获取的权限信息 业务设计:偏社交性的应用则会引导用户上传真实头像、补充身份信息等,并结合用户提交的性别、年龄等信息,基于人群上的统计意义来推荐。偏阅读性的应用会让用户手动选择自己感兴趣的领域,或通过让用户对一些有区别的内容进行打分的方式来判断用户的喜好。
655-665
这种在主消费场景之前增加一道门槛的方式,本身也会对小白用户造成一定的影响。
668-669
在冷启动阶段新用户更倾向于热门内容,而老用户则更需要长尾内容的推荐。
678-679
Netflix的研究也表明:在冷启动阶段新用户更倾向于热门内容,而老用户则更需要长尾内容的推荐。
678-679
按照覆盖面由大到小的次序,选择有区分度的内容进行用户偏好的探测,基于已有用户群体的偏好统计数据,动态调整后续用于兴趣探测的类目和内容。
680-681
当新用户已经成了老用户,在已经实现短期留住用户的前提下,推荐系统需要在一定程度上牺牲短期点击率来探索用户更广泛的兴趣,从而获得用户长期留存率的提升。
689-691
基于专家的判断制定简单的人群定向规则,用规则引导新品类、新品牌的加权分发,将全人群的强展现转为特定人群的强展现,从而换取可能更高的点击率。
720-721
应对小众兴趣,一方面需要扩充系统的资源池,让小众兴趣也有足够的内容覆盖,另一方面也需要通过产品设计鼓励用户更主动地进行强表达行为(如收藏、关注),一次关注行为显然比一次点击行为更经得起长时间的衰减。 好的推荐系统,是不会止步于已知边界的,而是会用一次次的探索去触达未知,给用户带来惊喜。
742-745
生产端能够认知到,通过符合平台规则的持续努力,可以获得一定的预期收益。”
829-829
以网约车场景为例,薪酬不倒挂、适度拉开新老司机的差异性和成长梯度,是平台用于管理和引导服务提供者的有效手段。为了吸引新司机而伤害老司机的服务积极性,是一种荒诞的冲刺KPI(绩效评估指标)的短期手段。
846-848
我们采用滑动窗口规则,即连续多条规则尽可能在多个维度打散,降低用户的视觉密集感。
910-911
多样性更好的内容在短期可能会降低点击率,但长期来看,对用户留存是有帮助的,
921-922
用户在被标题吸引点击后可能很快就会退出,或是在内容当中举报,留下负面评论内容等。
930-930
在易反感问题上:如果要强化读者端的体验,尽量不让用户看到易反感的内容,就需要重视召回率,宁肯误删也不能漏删;如果要强化作者端体验,希望作者的内容尽量不要被误删,则需要重视准确率,适当露出一些置信度低的结果或增加人工复审捞回流程以保证内容不至于被错杀。
955-957
长时效性内容推荐的日期短了,会造成资源浪费;短时效性内容推荐的时间长了,会对用户体验造成伤害。因此,推荐系统会基于内容的特点预判不同内容的衰减周期和推荐策略。
978-980
他们跳得出算法分发,也跳不出社交关系分发;跳得出社交关系分发,也跳不出自己的认知选择边界。“茧房”始终存在,真正过滤你的,是你的认知泡泡。
1038-1039
给用户展示多元化甚至有冲突的观点,对评论的刺激作用是显著的。
1046-1047
受众角度:读者关注面广,在社会上引起较大反响,为报纸争得明显的效益或荣誉,收获普遍好评的热点、焦点新闻稿。 • 策划角度:富有策划、创新意识,极具冲击力和感染力的报道。 • 深度角度:分析透彻,有独到见解的深度报道。 • 题材角度:重大独家新闻,重大调查性报道。
1059-1063
在冷启动阶段,由于对用户缺乏认知,推荐并不能很好地刻画用户的兴趣画像。为了最大化地实现用户冷启动阶段的留存目标,推荐必然会从大众化和基础化的热门角度切入。
1104-1105
系统基于文本分析确定了内容分类,可能会推荐一篇质量平平的科技分析给一个重度的科技用户。在这种情况下,用户还是会觉得内容过水,从而对推荐产生微词。我们通常依赖用户对作者的关注程度来局部改善此类问题。
1110-1112
如果从推荐系统的点击预估角度看,更接地气的内容超过高大上的内容几乎是必然的。
1124-1125
内容稀缺度:越垂直的内容越稀缺,小类目下的内容点击可能比大类目下的内容点击更有价值。 • 作者角度:从全局来看,每个垂直赛道都会跑出有广泛知名度的内容品牌,它们的内容往往更适合广泛传播;从用户个体来看,某些用户会对内容来源而非内容类目更加敏感,这就需要放大作者的相似度以降低内容的相似度。 • 互动行为:不同的行为代表了用户不同的意图。阅读行为仅仅是一种个体行为,点赞、评论都代表了用户对内容更感兴趣,而分享则意味着用户愿意为之传播和背书,可能权重更大。
1134-1139
在内容层面,编辑和审核团队能够决定什么样的内容是低质的,不应被系统收录和推荐。编辑和审核评估团队就像是内容推荐系统的门神一样,对不好的内容可以说不,对低质内容背后的做号者也可以说不。
1159-1161
新闻),当重点新闻发生时,编辑一定是24小时值守的,并验证其真实性,以确定推送范围和推送级别。
1170-1170
当发现主观上觉得好的内容没有得到应有推荐量的时候,当发现主观上觉得差的内容得到过高推荐量的时候,都会给产品和技术做出反馈。
1176-1177
第一,这是不是一个问题,如果是问题的话,是不是一个频发的问题,以此来确定解决与否和解决的优先级;第二,探讨更系统的解决方案,让这一类而不是这一个问题得到更系统的解决。
1178-1180
编辑不仅能够帮助推荐系统更好地理解内容,也能帮助我们更好地理解站在内容背后的创作者群体。 在创作者体系层面,我们常说:做产品要有用户视角,作为平台方,你在面对亿万用户的同时,也在面对万量级的作者。作者同样是内容分发系统的用户。编辑会更理解创作者的语境,成为创作者和作品的代言人,从而影响系统的迭代方向。与此同时,他们也能够以创作者更易理解的方式去传递平台的规则,帮助不同阶段的创作者在平台更好地成长。
1181-1186
u:用户与内容发布者之间的亲密度分数,互动越高的亲密度分数越高。 • w:不同反馈动作具有不同的权重,反馈动作包括展示、评论、点赞等。比如,评论动作的权重就会显著高于点赞动作。 • d:基于时间的衰减,越新的内容权重越高。
1202-1205
Story Bumping(系统对用户错过的信息进行二次判断,如果判断为重要,则会跳过时间序进行置顶展示)、Last Actor(系统根据用户最近频繁互动的50人,进行信息排序的调权,放大短期兴趣的影响)
1210-1212
微博、脸谱网将关注关系作为筛选因素,将用户的点击、评论行为作为调权因素,是在“关注关系产出内容”的候选集上进行算法排序。
1218-1220
相比起来,今日头条将关注关系也弱化为调权因素,从而获得了一个更广泛的候选集范围(相当于用户在今日头条上关注了所有头条号),在此之上进行的排序能够有更高的效率匹配性和更好的可扩展性。
1220-1222
内容推荐是一个预期不稳定的场景,用户持续地刷新、阅读内容,其内容可能是娱乐、体育、社会新闻、财经报道等,不一而足。关注场景给了用户一个稳定预期消费的场景。用户知道这里的内容是产自一个限定候选集合(微博的订阅号列表)时,甚至会主动找寻特定发布者的内容(微信的订阅号列表)。
1223-1226
有效的关注依赖用户的自知自觉,即明确关注是怎么一回事,知道关注后去哪里消费,关注频道会变成什么样。如果不经平台的干预,很有可能会重蹈社交分发平台的覆辙,大量无效的关注关系会影响用户的关注信息流。
1226-1228
当你关注一个账号的时候,你可能会更愿意消费作者分享的私人信息,
1230-1231
一种应用方式是:某订阅分发平台对某条内容的推荐会先尝试10%的粉丝,如果粉丝点击率高的话会再继续扩散,否则会停止内容的继续推荐。
1233-1235
明确产品场景,确定业务的核心指标,并以灵敏指标拟合长期目标。
1285-1286
所有的短线优化都可以围绕灵敏的局部指标渗透率和人均消费进行。
1288-1289
即在不降低点击率的前提下,优化互动量(分享、评论、点赞),在互动量优化中,优先优化分享量。
1290-1291
在机器算法尚未完善前,产品经理应该给出一个保底方案作为
1293-1293
在机器优化的过程中,往往会出现为了极致优化目标A,造成其他部分有损的情况。
1297-1298
在机器优化的过程中,往往会出现为了极致优化目标A,造成其他部分有损的情况。比如,目标设定的是优化用户的阅读完成度,那么机器执行后最直接的结果就是只推荐短文(一屏展现完毕,用户点击后就100%完成阅读)。这样的结果显然不是我们想要的。为了优化,我们需要进一步修正目标的设定方式。比如,内容至少要多于多少字,对哪些内容可豁免(如快讯),等等。
1297-1301
“不只为做而做”,产品经理所提出的优化和迭代应该建立在服务核心目标上,即保证所有做的功能,是致力于改进核心指标而不是局部业务指标的。
1311-1312
有价值用户的长期留存。
1316-1316
以信息流产品为例,有价值的用户可能是那些点击或浏览信息流广告的用户。 • 以游戏产品为例,有价值的用户可能是付费的“氪金”玩家。 • 以直播产品为例,有价值的用户可能是打赏的金主。 • 以职场社交产品为例,有价值的用户可能是活跃在这一产品上的、可被招聘和挖掘的职业用户。
1322-1326
无论收益途径如何,用户价值都会被归结到特定渠道的LTV(life time value,生命周期价值)上,产品层优化应旨在提升用户所带来的全生命周期价值。
1327-1328
以敏感的核心业务指标拟合不敏感的长期留存指标,即明确不同产品场景下,和留存指标关系最为紧密的那些指标,后续的产品改进都应该将核心业务指标作为评估标准。
1332-1333
对于信息流产品,可能是点击率、停留时长。 • 对于社交类产品,可能是用户的关系数,以及基于这些关系所能产生的消费量。 • 对于直播类产品,可能是观看时长、关注的主播数量。
1335-1337
主要目标是什么?在该业务范围内,用户是怎样消费的,影响用户体验的因素有哪些?
1346-1346
改进了低活跃用户,还是进一步促进了高活跃用户。
1382-1383
引入更多维度的人工评估进行决策权衡,以可量化的短期指标损失来保证不能轻易量化的消费体验。
1399-1400
好内容的作者通常已经是被系统标注的优质作者,在冷启动过程中,这些作者由于有更好的历史表现,已经得到了远超普通作者的冷启动曝光量。
1426-1427
要么是这篇内容质量有问题,要么是推荐系统推荐的目标人群不对。
1435-1436
将内容分发到用户常驻的平台,而非吸引用户到自己的平台看内容”
1458-1459
对BuzzFeed而言,在总阅读量相近的情况下,一篇病毒传播提升系数更高的内容,因为收获了更多的社交传播而变得更有价值。
1478-1479
BuzzFeed的“内容三扳斧”——清单体、短视频和小测验,
1481-1481
比如智能封面图截取工具,能够根据不同平台的特点、画面的清晰度与表意性自动截取(在视频上传后的系统封面候选集合中,也运用了类似的思路)。又如实时热点监控工具,通过监控社交网络的潮流变化,可以及时将当下流行的爆点推送给自己的内容编辑等。
1490-1492
影响内容一次打开率最直接的因素有两个:活跃粉丝量和内容包装的好坏。
1502-1503
对于粉丝分发平台,有多少活跃粉丝就意味着有相应比例的基础展示量;对于非粉丝分发平台,自媒体账号的活跃粉丝量会被视作其平台的贡献程度和受众情况从而影响分发权重。
1504-1506
对于粉丝分发平台,一次打开率的计算公式为“一次打开率=阅读量/粉丝量”;对于推荐分发平台,一次打开率的计算公式为“一次打开率=应用内阅读量/推荐量”。
1519-1520
对图文来说,这个指标是平均阅读进度和阅读速度;对视频来说,是播放进度和播放时长(因为用户会有快进的行为,所以100%的播放进度并不意味着100%的播放时长)。
1532-1534
片头:很多短视频综艺节目都会有自己的片头,越长的片头通常会带来越高的跳出率。类似前贴片广告,在用户对内容品牌没有强认知的情况下,片头实际上降低了他们获取内容的效率。一般建议将节目品牌插入内容播放过程中,作为转场画面以获得品牌曝光量与播放量的平衡。 • 片尾:在内容质量尚可的前提下,片尾广告的触达率通常都不错,如何提升转化率,考量的就是自媒体的引导性内容制作功力了。由于看完了整个视频,所以自媒体在片尾引导用户关注自己的效果要比片头好一些。 • 相同字数的内容、多图内容的平均阅读速度一般略快,这可能是因为用户的注意力主要被图片吸引,从而更容易略过文字的部分。 • 对于推荐算法分发的系统,跳出率会存在一定的偏差。比如,标题中使用了歧义词导致系统将其分发给了非目标用户,这部分用户的头部跳出率通常很高。
1536-1544
内容是否引发了读者互动也是一个常见的考量角度,如评论、点赞、收藏、转发等,这些指标的横向对比通常用于组织内部考核不同编辑的创作能力。其中,我个人建议需要额外关注的是评论和转发两个指标。
1549-1551
评论扩展了内容的深度,更多的用户评论给正文提供了不同的视角分析和信息补充,可以有效地引发围观用户的阅读兴趣,提升用户在内容页的整体停留时长。促进评论的提升是有技巧的:选题有冲突性或者有代入感,在正文中留有悬念,主动引起讨论、投票,在评论区中带节奏等都是行之有效的方法。 转发扩展了内容的广度,更多的转发能够带来更多面向潜在受众的曝光,这一点对于以粉丝分发为主要模式的系统尤为重要。对于转发指标,我们可以套用BuzzFeed病毒传播系数的计算方式:Viral Lift = 1 + 传播阅读量 / 一次阅读量。
1551-1556
LTV:一个粉丝从关注该自媒体的那一天开始到取消关注或者脱离平台,能够带来的收益,通常按渠道来计算。如果某个渠道或某个平台的用户不精准、付费意愿差,那么这个渠道的用户LTV就相对较低。 CAC(Customer Acquisition Cost,用户获取成本):同样跟渠道有关,自媒体需要持续发现低价、优质的渠道,抢占红利期。比如,2015年年初,微信广点通渠道的公众号涨粉,单个用户获取成本只有1~2元。 ROI(Return On Investment,投资回报率):其计算公式为ROI =(收入–成本)/成本。应用于粉丝增长场景就是ROI =(LTV – CAC)/CAC,衡量的是自媒体从一个粉丝身上挣到的钱是否能够覆盖获取这个粉丝的成本。
1562-1568
实物礼品用于鼓励已有的活跃老粉丝,虚拟礼品用于激活和拉新。
1596-1597
想要算清楚用户的ROI,有赖于用户身份的识别和渠道的追溯。
1601-1602
即使团队再小,也应该设置一个负责内容宣发的职位。
1648-1648
从保证用户阅读体验的目的出发,能够避免平台采用非黑即白的态度对待标题党,就有了更弹性、灵活的操作方式。 第一,用滥了的标题党,规则直接封禁。
1666-1668
第一,用滥了的标题党,规则直接封禁。
1667-1668
“惊呆了”“不得不看”这种词汇可以说是用滥了的标题党。
1668-1668
在新《广告法》中,“最”字头、“国”字头以及“唯一”“首个”“领先”等极限用语也被一刀切地禁止使用。对于此类标题党情况,平台可以采用一刀切的管理方式,直接封禁。
1670-1672
蹭名人的内容,可以借助文本分析来初步了解正文和标题的实体匹配度是否足够;标题歧义的内容,由于用户的阅读预期和内容差异较大,通常阅读完成度并不好;一些涉及性暗示的标题,可以通过收集和统计样本来训练模型。
1682-1684
在系统识别出标题党的概率后,对不同作者的处理方式会有尺度上的松紧之分。劣迹作者可能干脆就不会获得推荐量,优质作者则可能不会有太多降权,甚至会有人工复查的机会。
1688-1690
推荐引擎会根据正文内容进行文本分析从而判断其主要的内容分类和话题,以进行后续推荐。在涉及一些英文内容的时候,要尽量补充对应的中文译名,以提升机器的理解程度。
1706-1707
现有的技术可以做一些基于帧的图片分析或视频音轨分析等,但尚达不到大规模工业应用的程度。在这种情况下,自媒体应当尽量完善平台提供的可补充文本信息的字段,如标题、摘要、话题(关键词)等,给机器提供一个更好地理解内容的途径。
1712-1714
不建议在视频上过分追求双关或者标题的精妙,
1715-1715
更新频率、内容分布和内容受众的情况。
1724-1724
堆砌关键字,在标题和正文中大量引用各种名人、知名企业等;或是在视频的摘要中写一些无关的词组以误导推荐引擎对内容的理解;抑或购买刷量服务,对内容刷量、对账号刷粉。
1725-1727
每一次的反作弊升级都能够破解之前的作弊行为,有作弊行为的账号轻则被扣分、禁言,重则被直接封号。
1728-1729
三段式标题,是将标题分为三个部分,
1737-1738
结合已有的实验数据来看,对于同一篇内容,使用三图方式的点击率是略高于单图、显著高于无图样式的。
1743-1744
双标题,给了一篇内容两次冷启动的机会,降低了好作品被埋没的概率。
1745-1746
在某一新版机器消重策略上线后,我们抽样得到的消重效果其实有显著的改进;但是,直到接到特定自媒体反馈后我们才意识到,新版消重策略对于如围棋棋谱、足彩分析等大量引用相似图片的内容,其误消重是非常严重的。
1757-1759
在推荐过程中,粉丝的阅读表现、账号或内容的转粉情况都会影响内容的推荐效果。
1775-1776
全网热点用来洞悉自身领域内部的用户需求,确定账号基调。老A通过“360趋势”来确定每个行业中的热门关键词和热门主题。
2057-2058
以搜索“八段锦”为例,高评论量的标题有: • 八段锦健身有奇效,练习诀窍你掌握了吗? • 健身气功八段锦视频教学口令版 • 1分钟学会八段锦 “这些标题的评论量高就说明读者是想学,那所有面向老年人的关于气功的内容都得围绕练习、学习、教学展开。
2065-2070
在内容的结尾部分就该制造冲突了。谈论八段锦的内容,要么制造中西医
2079-2079
在内容的结尾部分就该制造冲突了。
2079-2079
自媒体发展的前期,粉丝影响力强度的意义甚至要大于粉丝数量的意义。
2129-2130
面向有付费能力的中产阶层女性的美妆时尚账号,面向亲子教育、紧紧抓住新手爸妈痛点的母婴亲子账号。与历史类、泛娱乐类内容相比,这类内容本身离商品更近,也就拥有更多潜在的大众消费品类广告主。
2132-2134
相对于独立广告中间商,平台从事广告中介业务,可以说存在碾压性的优势:在数据层面,它掌握着最真实、可信的自媒体分发数据和用户画像,只有官方才知道广告内容超过十万次的阅读量中哪些是真的,哪些是刷的;在流量层面,又直接掌握着平台内各种流量分发渠道。
2232-2234
从新榜和有赞共同提供的销售数据来看,文化类与育儿类公众号的内容转化效率最高。在有赞平台开店的头部大号中,文化类与育儿类的店铺数量仅占总店铺数量的24%,却斩获了71%的销售额,相当于1/4的店铺卖出了3/4的销量。而店铺数量较多的民生类与时事类大号,销售额却只占总销售额的1%。
2271-2274
纸尿裤、奶粉、童书、玩具等都算得上刚需。各大母婴类电商都在把此类刚需型产品作为引流点赔本赚吆喝。
2329-2330
对于“内容电商”这一概念,电商才是主体,其商业逻辑的链条是“内容→粉丝→复购”的传导过程。
2351-2352
但对电商来说,最看中的并非获客成本而是复购率。在复购环节,影响用户决策的就不仅仅是内容的阅读体验了,电商本身的下单、物流、客服体系同样重要。
2353-2354
李翔商业内参。
2364-2365
榜《中国微信500强月报(2017.01)》中对于阅读原文的使用情况:有10%的链接导向了电商,2%导向了下载。
2411-2412
这种形态的创作和传播成本更低,具有更好的时效性:新的案例、新的观点可以通过直播的形式更快地传递出来。
2445-2446
同时,由于引入了线上互动和线下咨询的环节,使得用户的标准化信息获取需求在通过直播主体达成之余,非标准化的个体咨询需求也可以通过点对点咨询完成。
2448-2449
线上传播不受时空限制的特点,除了对内容消费者是利好外,也可以帮助小众领域的创作者聚集更多的潜在消费者,从而促进其生产,最终
2449-2451
线上传播不受时空限制的特点,除了对内容消费者是利好外,也可以帮助小众领域的创作者聚集更多的潜在消费者,从而促进其生产,最终带来内容消费品的品类和数量繁荣。
2449-2451
功利性和非功利性诉求区别的话,我想,可能是前者需要的是通过考试和学知识,后者需要的是长见识。
2460-2461
价值预期的构成可以有很多种,比如内容本身的价值、主讲人的品牌价值、平台的品牌背书等。
2483-2484
做得轻,是只做产品功能上的对标。常见的功能无非是付费问答、付费阅读、付费课程、会员制等,将各种已有内容进行包装,并加以付费门槛和权限
2517-2519
做得轻,是只做产品功能上的对标。常见的功能无非是付费问答、付费阅读、付费课程、会员制等,将各种已有内容进行包装,并加以付费门槛和权限控制。
2517-2519
一种方式,是做标准化的课程体系,类似英语流利说、VIPKID(一家在线少儿英语教育公司)。
2523-2524
频率等,均收归创作者决定。毕竟,对头部自媒体来说,单单
2528-2528
回应 2019-05-18 16:20:27 -
少谈主义 (少谈些主义,多研究些问题)
推荐与搜索最大的差异在于用户表意是否明确。搜索是推荐的一种简化版本。 搜索架构: 在线部分:搜索词处理-召回-排序 离线部分:爬虫-建索引库 推荐系统与此类似,只是没有了“检索词”,要系统自己去猜,办法就是画像。它的架构也基本类似: 离线训练模型 在线召回排序 更新用户画像与内容画像 突然明白了 用户画像大致可以分为两类 静态用户画像:人口统计变量 动态用户画像:转、评、赞等显式/隐式行为 基于用户的协同过滤...2018-08-22 17:24:30
推荐与搜索最大的差异在于用户表意是否明确。搜索是推荐的一种简化版本。
搜索架构:
在线部分:搜索词处理-召回-排序 离线部分:爬虫-建索引库
推荐系统与此类似,只是没有了“检索词”,要系统自己去猜,办法就是画像。它的架构也基本类似:
离线训练模型 在线召回排序 更新用户画像与内容画像
突然明白了
用户画像大致可以分为两类
静态用户画像:人口统计变量 动态用户画像:转、评、赞等显式/隐式行为
基于用户的协同过滤——1992 基于物品的协同过滤——2001,亚马逊
协同过滤是一种二模网络,这里面有一些元问题值得研究,例如打分/评价机制。 协同过滤的思想与You shall know a word by the company it keeps的想法如出一辙,都是利用“周围人”来infer自己。
评价多样性——熵&基尼系数
回应 2018-08-22 17:24:30
-
在脸谱网、微博、微信覆盖了越来越多的用户之后,内容的分发逐步去中心化:每个人都可以创作内容从而成长为自媒体,每个人都可以借助社交关系评论、转发从而完成内容的传播。信息的传播权从传统的精英编辑让渡到每个普通受众,相当于每个人都成了编辑,成了内容分发的中心。 社交分发首次让信息传播变成“千人千面”。每个用户都有了个性化的内容消费。
2019-12-17 20:44:54
当前版本有售 · · · · · ·
以下书单推荐 · · · · · · ( 全部 )
- 文案或策划或媒体或营销或商业或设计 (蓝蓝的紫)
- 互联网产品进修班 (cress)
- 大厂方法论 (豆友4104547)
- 数据科学与人工智能 (lyb)
- Hi,产品经理 (静观然)
谁读这本书?
二手市场
订阅关于内容算法的评论:
feed: rss 2.0
0 有用 屁屁虹 2020-08-06 23:52:25
搜索+Feed分发机制写得合情合理,最后知识付费部分有一种对前途的谄媚。
5 有用 布布徐 2018-06-11 18:47:54
准备6月内用思维导图画一个读书笔记
0 有用 空山 2018-09-24 10:47:57
系统已经强大到了一种可以窥探本我的地步了。系统猜你是谁的思路还是很有意思,比如共用wifi的人数来判断使用人之间的亲密度。看了之后有让我重新下载今日头条的冲动,但是下下来之后用了一下还是想说一句,垃圾。有些东西,真的不是系统可以解决的。这可能就是价值导向和技术导向的本质区别。
18 有用 焚琴客 2018-06-04 23:41:56
对于自媒体或内容运营从业者而言,这本书面面俱到却又蜻蜓点水,基本上都是圈内皆知的干货,外行人看不懂,内行人不用看。不过末尾竟然专章讲述如何做号,甚至具体讲解如何下号、搬运、洗稿、刷量,让人顿感惊奇,这大概是市面上唯一一本将自媒体江湖揭露到阳光之下的书籍了。
2 有用 F | Wagon 2018-05-16 09:32:22
比较浅显。前一半结合今日头条讲了些推荐系统的基础概念。后一半偏运营和案例分析的内容有点水。
0 有用 艾莎 2022-04-18 12:50:53
看看综合入门了,没什么有价值的洞察
0 有用 Qiink 2022-03-20 11:44:55
算法逻辑讲的比较清楚,后半段有拼凑感,有些过时了,前面还行。
0 有用 小二宝 2022-03-10 13:22:14
第一部分讲推荐算法,第二部分讲自媒体,主要读了第一部分,第二部分略翻了一下,比较表面和谄媚,我不喜欢。 整体通俗易懂,里面的case也恰如其分,观点也很清晰,很好的入门书籍。
0 有用 yuanbro 2022-03-10 12:41:50
理解推荐算法,更好的让创作作品传播度放大。首先内容需要先过机器这一关,让推荐引擎正确地理解内容,才能更有助于内容的精准分发。在用户面前需要好的包装,“不能在一秒中看明白的标题,不适合传播。不是读者理解不了,而是他只能给咱们一秒钟。”所以想要内容被好好的推荐需要应对质量和包装的问题(标题封面)还是应对推荐问题(内容识别、冷启动、用户阅读指标)等。
0 有用 山伯伯pan 2022-03-09 00:57:18
作者之前是头条的PM,从这个标签及书的标题,还是有一定吸引力的,不过写的内容确实是浅的,作为了解类的入门读物已阅,这本书写于2017年,出版于2018年,三年过去了,推荐系统及算法有了很不错的提升。