《IBM SPSS Modeler数据与文本挖掘实战》试读
第 1 章 数据挖掘概述
1.1 什么是数据挖掘 数据挖掘是一种通过数理模式来分析大量资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法。数据挖掘可以描述为:是按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进、有效的方法。数据挖掘(Data Mining),又译为资料探勘、数据采矿,它是数据库知识发现中的一个步骤。数据挖...
第 4 章 回归分析
4.1 回归分析模型概述 所谓回归分析法,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归方程。在回归分析中,当研究的因果关系只涉及因变量和一个自变量时,称为一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,称为多元回归分析。此外,在回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为..
第 11 章 人工神经网络
11.1 人工神经网络模型概述 人工神经网络(Artificial Neural Network,缩写ANN),简称神经网络(Neural Network,缩写NN),是一种模仿生物神经网络的结构和功能的数学模型或计算模型。神经网络由大量的人工神经元连接进行计算。在大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统。现代神经网络是一种非线性的统计模型,常用来对输入和输出间复杂的关系...
第 15 章 文本挖掘算法
15.1 特征选择文本分类算法 15.1.1 文本特征表示 特征表示是指以一定特征项(例如词条或描述)来代表文档,在文本挖掘过程中,只需要对这些特征项进行处理,就可以实现对非结构化文本的处理。特征表示方法有很多种,常用的有布尔逻辑法、概率法、向量空间等方法。现有的绝大部分文本分类器都是使用向量空间模型中的“词袋法”来表示文本。这种方法有一个关键的假设,就是文章中出现的...