《Data Mining》的原文摘录

并非所有的系统都进行真正的数据挖掘。不能处理大量数据的数据分析系统，最多只能称作机器学习系统、统计数据分析工具或实验系统原型。一个系统只能进行数据或者信息检索，包括在大型数据库中找出聚集值或回答演绎查询，更应归类为数据库系统，或信息检索系统，或演绎数据库系统。数据挖掘涉及多学科技术的集成，包括数据库和数据仓库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像与信号处理以及空间或时间数据分析。 (查看原文)

豆友1579226 1赞 2013-04-24 17:37:00

—— 引自第6页
对用户进行分类、对用户行为进行发掘数据挖掘可以提供比Web搜索服务更多的帮助。根据Web页面之间的链接关系，进行权威Web页面分析（authoritative Web page analysis）可以根据Web页面的重要性、影响性和主题，对网页进行排序。自动Web页面聚类和分类有助于基于页面的内容，以多维的方式对Web页面进行分组和安排。 Web社区分析有助于识别隐藏的Web社会网络和社团，并观察它们的演变。 (查看原文)

豆友1579226 2013-04-24 17:43:40

—— 引自第13页
频繁模式（frequent pattern）是在数据中频繁出现的模式。存在多种类型的频繁模式，包括项集、子序列和子结构。 (查看原文)

豆友1579226 2013-04-24 18:10:30

—— 引自第15页
2.2.1. Measuring the Central Tendency: Mean, Median, and Mode (查看原文)

Evan 2013-07-31 14:50:01

—— 引自章节：2.2 Basic Statistical Descript
moda <- function(arr){ sort.arr <- sort(arr) max_count <- 0 count <- 0 last <- 0 for(x in sort.arr){ if(x == last){ count <- count + 1 }else{ last <- x if(count > max_count){ max_count <- count } } } return (last) } (查看原文)

Evan 2013-07-31 14:50:01

—— 引自章节：2.2 Basic Statistical Descript
2.2.3. Graphic Displays of Basic Statistical Descriptions of Data (查看原文)

Evan 2013-07-31 14:50:01

—— 引自章节：2.2 Basic Statistical Descript
A scatter plot is one of the most effective graphical methods for determining if there appears to be a relationship, pattern, or trend between two numeric attributes. library(car) scatterplot(mpg ~ wt | cyl, data=mtcars, xlab="Weight of Car", ylab="Miles Per Gallon", main="Enhanced Scatter Plot", labels=row.names(mtcars)) (查看原文)

Evan 2013-07-31 14:50:01

—— 引自章节：2.2 Basic Statistical Descript
χ2 Correlation Test for Nominal Data (查看原文)

Evan 2013-08-01 09:24:53

—— 引自章节：3.3.2. Redundancy and Correlat
Correlation Coefficient for Numeric Data (查看原文)

Evan 2013-08-01 09:24:53

—— 引自章节：3.3.2. Redundancy and Correlat
Covariance of Numeric Data (查看原文)

Evan 2013-08-01 09:24:53

—— 引自章节：3.3.2. Redundancy and Correlat
3.4.2. Wavelet Transforms (查看原文)

Evan 2013-08-01 09:55:58

—— 引自章节：3.4 Data Reduction
3.4.3. Principal Components Analysis (查看原文)

Evan 2013-08-01 09:55:58

—— 引自章节：3.4 Data Reduction
3.4.4. Attribute Subset Selection In machine learning, attribute subset selection is known as feature subset selection. 3.4.5. Regression and Log-Linear Models: Parametric Data Reduction (查看原文)

Evan 2013-08-01 09:55:58

—— 引自章节：3.4 Data Reduction
3.4.6. Histograms 3.4.7. Clustering 3.4.8. Sampling (查看原文)

Evan 2013-08-01 09:55:58

—— 引自章节：3.4 Data Reduction
聚类是一个把数据对象集划分成多个组或者簇的过程，使得簇内的对象具有很高的相似性，但与其他簇中的对象很不相似。 (查看原文)

k8哥 2013-12-03 18:41:44

—— 引自第292页
Web搜索引擎是一种专门的计算机服务器，在Web上搜索信息。通常，用户查询的搜索结果用一张表返给用户（有时称做采样（hit））。采样可以包含网页、图像和其他类型的文件。有些搜索引擎也搜索和返回公共数据库中的数据或开放的目录。搜索引擎不同于网络目录，因为网络目录是人工编辑管理的，而搜索引擎是按算法运行的，或者是算法和人工输入的混合。 Web搜索引擎本质上是大型数据挖掘应用。搜索引擎全方位地使用各种数据挖掘技术，包括爬行1（例如，决定应该爬过哪些页面和爬行频率）、索引（例如，选择被索引的页面和决定构建索引的范围）和搜索（例如，确定如何排列各个页面、加载何种广告、如何把搜索结果个性化或使之“环境敏感”）。 (查看原文)

已注销 2015-07-14 16:52:00

—— 引自第18页

作者: Jiawei Han, Micheline Kamber, Jian Pei
副标题: Concepts and Techniques, Third Edition
isbn: 0123814790
书名: Data Mining
页数: 744
定价: USD 74.95
出版社: Morgan Kaufmann
装帧: Hardcover
出版年: 2011-7-6