从相关信息到有监督建模
#小曾曾读书笔记#有监督的划分步骤总结:
1、定义原数据集的混乱程度,即熵;
2、选择信息量最大的那个富信息属性,原数据集的熵与按照属性分类后的子类总熵的差值最大时,的信息属性为富信息属性。该过程为信息增益计算方法;
3、可以绘制熵图,按照面积来表示不同属性的信息增益程度,按照信息增益降序即定位最具选择性的属性;
4、以上是分类问题的计算方法,回归问题可以用方差来计算,方差越大,说明混乱程度越高;
5、计算不同分类下的结果概率,可以绘制决策概率树:树根节点用信息增益最大的富信息属性,子节点根据当下实例集合下的信息最大的富信息属性,依次类推。每只树干的概率,用频率进行计算。在面对实例较少的极端情况,可以用拉普拉斯修正进行替代。
6、最后验证,模型的准确率,可以在搭建模型前将数据集分一部分出来进行测试,得到准确率。
关于准确率的高低好坏,以及过拟合的问题,后续会进行讨论。如果身边有实际数据,可以立刻行动,测试下实际理论。重要的是思路和原理,技术方面不限于R、Python、SQL或其他。
29人阅读
说明 · · · · · ·
表示其中内容是对原文的摘抄