一些有意思的研究

个人觉得这本书写得很有意思
- 分析细致,比同类书籍要强(比如Outliers, The Cultural Code),这是因为作者学术出身的缘故
- 讲了许多新的故事,也涉及了许多新的研究,对我来说很新鲜
- 不足之处是图表几乎没有。其实可以都放上来,会更好懂一些
建议先看作者在NYU的讲座。有图,会更好懂一些

视频: https://www.youtube.com/watch?v=6XyTZY6S5NE
网站: https://www.barabasilab.com/
书篇幅不长,一个周末能看完。对大部分人,案例和分析都算有趣,算是近几年同类书中的最佳了,推荐试试。不过,我倒觉得具体的law没什么,更喜欢背后的研究,其思路、方法都值得学习
一、什么是成功?
拿体育来说,是打球的水平很高、拿了冠军,还是挣了很多钱?还是这些都叫成功?
这本书最好的地方,就是做了区分和定义
- Performance(水平):表现的水平,比如打球水平很高
- Success(成功): 大众对于Performance的反映(Perception of performance),比如因为打球而获得的关注
即把成功定义成了社会化现象,而不是个人体验。因此,有了2个道理
- 如果水平能客观衡量,那么可依靠水平成功。比如网球、跑步,第一就是第一,大家也会因此关注冠军。反之,则依赖社会评价。比如艺术品,需逐渐受到认可、成功也是逐步的,因为其水平难以直接衡量(比如书中说的Fountain,下图,值几百万美金)(书中Law 1)

- 水平是有限度的,会出现难以区分的情况(比如酒的比赛、钢琴比赛),成功、冠军只有一个,但并不是其他的水平就差很多(书中Law 2)
也就是说,如果自己的工作水平无法直观体现(e.g. 介于体育和艺术之间),那要多和network中的节点互动,把自己的价值传播出去(e.g. 介绍自己的作品)。自己觉得自己NB是没有用的,因为没法衡量
反过来,豆瓣和IMDB用评分量化电影好坏,让人们更易感知,好电影也就能更易体现、获得成功了
二、有意思的研究
(1) 社会化评分的影响
场景:
- 音乐App里的排行榜一般按下载量、播放量排序,是否会出现排在前面的是因为大家都只听前面几首,而导致一些好歌上不去?而且还有水军、黑军刷榜,以及新歌入榜的情况
- 商品打分影响:比如豆瓣评分、Amazon评分,是否会有后来的人看到之前的高/低分,跟着打高/低分?也就是跟风打分的情况
对于第1个场景,https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0121934 做了研究,把歌的属性细分成了吸引力(根据名字、乐队而选择播放的概率)、质量、可见性(根据在榜单中的位置而不同),然后提出了优化的排序方法,能解决这种“马太效应”,让好的歌曲得到更多流量
对于第2个场景,https://www.liebertpub.com/doi/10.1089/big.2014.0063 做了研究,能把一个产品评分的内在评分(也就是和本身质量相关的)算出来,区分跟风的打分情况(下图)

这些研究我觉得很有意思,比如豆瓣/Amazon的评分,有多少是跟风打分的情况?看到别人说好、差,也跟着说烧脑、烂片?能怎么获得电影的内在评分?
又比如排行榜优化。比如豆瓣评论(书评、影评)的排序,我觉得可以改成最大化"有用"的增长速度,而不是按总票排序。因为豆瓣的本质是个人化的,是人与人之间的对话,所以应该尽量鼓励大家发东西,而不是只让头部的人拿到"有用",后面发的就看不到了。微博、知乎是信息分发渠道,其培养头部帐号是合理的,但豆瓣未必
(2) 人们如何认知一篇论文的主要贡献者?

一篇论文的作者现在很多,人们是如何认知当中谁是主要作者的?
https://www.pnas.org/content/111/34/12325 给出了一个算法,基于共同引用文章计算每个人的贡献量,并且用诺贝尔颁奖的结果做了验证,是用network science做的非常酷的一件事
(3) 科学家何时做出其最重要的工作(生涯早期 vs, 晚期)?
是不是早期做的研究更有水平、影响更高,因为年轻时更有创新力,到老了就不行了?

这是作者的研究,做一个很酷的可视化 http://scienceofsuccess.barabasilab.com/ (上图),文章在 http://science.sciencemag.org/content/354/6312/aaf5239 通过分析各领域几千位科学家文章的引用数据,发现最高水平文章的出现是随机的(如下图,最高影响文章的出现前后几乎没有差别)

此外,作者给出了 s=Q*r (每篇文章引用数=执行力*idea的质量),是怎么得到的,可靠吗?

其实是观察s的分布符合lognormal分布(上图),然后猜想由Q*r相乘(lognormal一般都涉及乘法)。假设Q恒定不变,并验证通过了。所以,这个公式只是作者的一个假设,只是一种可能合理的组合,但未必称得上law (我觉得都有点循环论证,先假设Q不变,然后再论证Q不变.....)
不过,为什么Q不变呢?难道随着科学家经验的增加,执行、研究的水平真的没有长进?
我觉得可能之一,是作者用的数据是截断的。用的是发过20年文章的科学家,前期quit的研究人员都不算。下图是用的科学家“最高影响数”的构成,可以看到low impact (0-10区间) 很少。如果把quit的放进去,会变成熟悉的power law分布,大量的“炮灰”集中在底部 (0, 10) 区间

这2者的差距是显著的,很多人就是因为无法持续做出好成果而退出学界。能持续做下去的,其实都是很厉害的科学家了。对他们而言,他们的水平一直都很高,相较于他们最NB的成果,未必能观察到前后研究水平的差别了
最后
- 我最喜欢是书中涉及的研究,因为都是data science. 相关背景的同学,可以读读、学习里面的思路(大过年的我居然在看畅销书里的论文....)
- 书中涉及了很多国人的研究,期待他们能讲讲自己的研究成果
关键词:数据分析、专家