《数据挖掘导论》的原文摘录

  • data mining is an integral part of knowledge discovery in databases(KDD), which is the overall process of converting raw data into useful information (查看原文)
    小笼包子 2012-07-26 10:22:40
    —— 引自第3页
  • 精度通常用值集合的标准差度量 (查看原文)
    阿蒙 2013-05-07 11:28:47
    —— 引自第24页
  • 例27 澳大利亚降水量 (查看原文)
    wwww_wu 2017-02-22 15:45:23
    —— 引自第28页
  • 设x和y是两个点,其中y是原来的点,而x是它的某个失真或近似,例如,x可能是由于添加了一些随机噪声到y上而产生的。损失函数的目的是度量用x近似y导致的失真或损失。当然,x和y越类似,失真或损失就越小,因而Bregman散度可以用作相异性函数。 (查看原文)
    wwww_wu 2017-02-23 20:51:03
    —— 引自第48页
  • 是一个函数与该函数线性近似之差 (查看原文)
    wwww_wu 2017-02-23 20:51:03
    —— 引自第48页
  • 像最近邻这样的消极学习方法不需要建立模型,然而,分类测试样例的开销很大,因为需要逐个计算测试样例和训练样例之间的相似度。 最近邻分类器基于局部信息进行预测,而决策树和基于规则的分类器试图找到一个拟合整个输入空间的全局模型。正式因为这样的局部分类决策,最近邻分类器(k很小时)对噪声非常敏感。 最近邻分类器可以生成任意形状的决策边界,这样的决策边界与决策树和基于规则的分类器通常所局限的直线决策边界相比,能提供更灵活的模型表示。 除非采用适当的临近性度量和数据预处理,否则最近邻分类器可能做出错误的决策。 (查看原文)
    红色有角F叔 2017-11-26 19:33:08
    —— 引自章节:5.2.2 最近邻分类器的特征
  • 数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。 并非所有的信息发现任务都被视为数据挖掘。 (查看原文)
    faniory 2018-01-01 22:36:42
    —— 引自第2页
  • 数据挖掘任务分为预测任务和描述任务两大类。预测任务的目标是根据其他属性的值,预测特定属性的值。描述任务的目标是导出概述数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。 (查看原文)
    faniory 2018-01-01 22:38:32
    —— 引自第4页
  • 父结点(划分前)的不纯程度和子女结点(划分后)的不纯程度的差越大,测试条件的效果就越好。 (查看原文)
    faniory 2018-01-07 22:43:05
    —— 引自第98页
  • 分类任务就是通过学习得到一个目标函数,把每个属性集映射到一个预先定义的类标号。目标函数也称分类模型。分类模型可以用于描述性建模和预测性建模。 (查看原文)
    faniory 2018-01-07 22:47:41
    —— 引自第89页