《Data Mining》的原文摘录

  • 并非所有的系统都进行真正的数据挖掘。不能处理大量数据的数据分析系统,最多只能称作机器学习系统、统计数据分析工具或实验系统原型。一个系统只能进行数据或者信息检索,包括在大型数据库中找出聚集值或回答演绎查询,更应归类为数据库系统,或信息检索系统,或演绎数据库系统。 数据挖掘涉及多学科技术的集成,包括数据库和数据仓库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像与信号处理以及空间或时间数据分析。 (查看原文)
    豆友1579226 1赞 2013-04-24 17:37:00
    —— 引自第6页
  • 对用户进行分类、对用户行为进行发掘 数据挖掘可以提供比Web搜索服务更多的帮助。 根据Web页面之间的链接关系,进行权威Web页面分析(authoritative Web page analysis)可以根据Web页面的重要性、影响性和主题,对网页进行排序。 自动Web页面聚类和分类有助于基于页面的内容,以多维的方式对Web页面进行分组和安排。 Web社区分析有助于识别隐藏的Web社会网络和社团,并观察它们的演变。 (查看原文)
    豆友1579226 2013-04-24 17:43:40
    —— 引自第13页
  • 频繁模式(frequent pattern)是在数据中频繁出现的模式。存在多种类型的频繁模式,包括项集、子序列和子结构。 (查看原文)
    豆友1579226 2013-04-24 18:10:30
    —— 引自第15页
  • 2.2.1. Measuring the Central Tendency: Mean, Median, and Mode (查看原文)
    Evan 2013-07-31 14:50:01
    —— 引自章节:2.2 Basic Statistical Descript
  • moda <- function(arr){ sort.arr <- sort(arr) max_count <- 0 count <- 0 last <- 0 for(x in sort.arr){ if(x == last){ count <- count + 1 }else{ last <- x if(count > max_count){ max_count <- count } } } return (last) } (查看原文)
    Evan 2013-07-31 14:50:01
    —— 引自章节:2.2 Basic Statistical Descript
  • 2.2.3. Graphic Displays of Basic Statistical Descriptions of Data (查看原文)
    Evan 2013-07-31 14:50:01
    —— 引自章节:2.2 Basic Statistical Descript
  • A scatter plot is one of the most effective graphical methods for determining if there appears to be a relationship, pattern, or trend between two numeric attributes. library(car) scatterplot(mpg ~ wt | cyl, data=mtcars, xlab="Weight of Car", ylab="Miles Per Gallon", main="Enhanced Scatter Plot", labels=row.names(mtcars)) (查看原文)
    Evan 2013-07-31 14:50:01
    —— 引自章节:2.2 Basic Statistical Descript
  • χ2 Correlation Test for Nominal Data (查看原文)
    Evan 2013-08-01 09:24:53
    —— 引自章节:3.3.2. Redundancy and Correlat
  • Correlation Coefficient for Numeric Data (查看原文)
    Evan 2013-08-01 09:24:53
    —— 引自章节:3.3.2. Redundancy and Correlat
  • Covariance of Numeric Data (查看原文)
    Evan 2013-08-01 09:24:53
    —— 引自章节:3.3.2. Redundancy and Correlat
  • 3.4.2. Wavelet Transforms (查看原文)
    Evan 2013-08-01 09:55:58
    —— 引自章节:3.4 Data Reduction
  • 3.4.3. Principal Components Analysis (查看原文)
    Evan 2013-08-01 09:55:58
    —— 引自章节:3.4 Data Reduction
  • 3.4.4. Attribute Subset Selection In machine learning, attribute subset selection is known as feature subset selection. 3.4.5. Regression and Log-Linear Models: Parametric Data Reduction (查看原文)
    Evan 2013-08-01 09:55:58
    —— 引自章节:3.4 Data Reduction
  • 3.4.6. Histograms 3.4.7. Clustering 3.4.8. Sampling (查看原文)
    Evan 2013-08-01 09:55:58
    —— 引自章节:3.4 Data Reduction
  • 聚类是一个把数据对象集划分成多个组或者簇的过程,使得簇内的对象具有很高的相似性,但与其他簇中的对象很不相似。 (查看原文)
    k8哥 2013-12-03 18:41:44
    —— 引自第292页
  • Web搜索引擎是一种专门的计算机服务器,在Web上搜索信息。通常,用户查询的搜索结果用一张表返给用户(有时称做采样(hit))。采样可以包含网页、图像和其他类型的文件。有些搜索引擎也搜索和返回公共数据库中的数据或开放的目录。搜索引擎不同于网络目录,因为网络目录是人工编辑管理的,而搜索引擎是按算法运行的,或者是算法和人工输入的混合。 Web搜索引擎本质上是大型数据挖掘应用。搜索引擎全方位地使用各种数据挖掘技术,包括爬行1(例如,决定应该爬过哪些页面和爬行频率)、索引(例如,选择被索引的页面和决定构建索引的范围)和搜索(例如,确定如何排列各个页面、加载何种广告、如何把搜索结果个性化或使之“环境敏感”)。 (查看原文)
    已注销 2015-07-14 16:52:00
    —— 引自第18页