增强型分析的路还有很长,数据分析也是一样
这篇书评可能有关键情节透露
#小曾曾读书笔记#《增强型分析》,增强型分析,顾名思义,是在现有数据分析和数据建模手段基础上,通过技术升级和技术结合,进一步提升分析的档次和level,实现智能和自动地完成数据准备、数据预处理和数据分析、输出决策的工作。在业务分析的四个层次,即描述性分析、诊断性分析、预测性分析和规范性分析过程中,都有增强型分析的影子和立足之地,当然,在预测性分析和规范性分析中,更考验增强型分析的技术和业务应用。
描述性分析,即分析过去发生了什么;诊断性分析,即分析过去发生这个事情的原因是什么;预测性分析,即基于过去的步调,未来会发生什么;规范性分析,未来应该采取的最优决策以及采取后的结果什么。目前大多数数据分析师都是停留在前两个阶段,而增强型分析更加着眼于后面两个阶段。
这算是一个“新概念”,新到其实在一二十年前就已经有很多人在研究,并且至今有了长足的发展。数据分析任重道远,学习之路慢慢,永远不能停止行走啊。
最后也梳理下本书的一些关键点,有些技术细节较为深刻,暂不做总结:
1、标准数据分析和数据建模四件套:
(1)、大数据存储与访问
(2)、数据分析流程的组件化、标准化改造
(3)、提供大量的算法支持数据处理、模型构建
(4)、将“模型洞见到业务决策”纳入分析范围
2、数据科学家敏捷性工作思路:积极主动地汇报分析思路、预期结果、进度等重要信息。时刻与业务人员以及管理人员保持沟通,对需求变化保持开放,将对模型的实际应用会有巨大的帮助。
3、数据探索可以有两个层面的理解:一是仅利用一些工具,对数据的特征进行查看;二是根据数据特征,感知数据价值,以决定是否需要对别的字段进行探索,或者决定如何加工这些字段以发挥数据分析的价值。
4、数值类型:区间型数据(Interval)、分类型数据(Categorical)、序数型数据(Ordinal)(1)、连续型数据:重点关注缺失率,然后是均值、中位数等指标。偏斜度是另外一个非常重要的指标,但其绝对值接近1或大于1时,必须对其进行log转换才能使用,否则该指标的价值将大打折扣。
(2)、分类型数据:不平衡数据就是一个典型的与业务有关的例子。
5、在数据分析中会遵从一些规则来填补缺失值。如: 对于连续型变量,采用均值来代替缺失值;对于序数型分类型变量,采用中位数来代替缺失值;对于分类型变量,采用众数来代替缺失值。
6、数据归约(Data Reduction),在理解数据分析任务和数据本身内容的基础上,寻找依赖于发现目标的数据的有用特征,缩减数据规模,在尽可能保持数据原貌的前提下,精简数据量。
7、梯度下降(Gradient Descent)是机器学习经常使用的一种在求得拟合函数参数时“最小化损失函数”的方法。其本质上就是求得使损失函数最少(对实际观测值拟合效果最优)、能够以最快的速度达到谷底过程。
8、文本分类是一个典型的机器学习的应用场景,人们利用文本分类技术进行情感分析(如正面情绪或负面情绪的判断)、类别划分(如微博上的发言属于哪种类型)、人机对话(判断用户问题的类别)等不同的场景。