登录/注册
下载豆瓣客户端
豆瓣
6.0
全新发布
×
豆瓣
扫码直接下载
iPhone
·
Android
豆瓣
读书
电影
音乐
同城
小组
阅读
FM
时间
豆品
豆瓣读书
搜索:
购书单
电子图书
2023年度榜单
2023年度报告
《Data Mining》的原文摘录
按热度排序
按页码排序
并非所有的系统都进行真正的数据挖掘。不能处理大量数据的数据分析系统,最多只能称作机器学习系统、统计数据分析工具或实验系统原型。一个系统只能进行数据或者信息检索,包括在大型数据库中找出聚集值或回答演绎查询,更应归类为数据库系统,或信息检索系统,或演绎数据库系统。 数据挖掘涉及多学科技术的集成,包括数据库和数据仓库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像与信号处理以及空间或时间数据分析。 (
查看原文
)
豆友1579226
1赞
2013-04-24 17:37:00
—— 引自第6页
对用户进行分类、对用户行为进行发掘 数据挖掘可以提供比Web搜索服务更多的帮助。 根据Web页面之间的链接关系,进行权威Web页面分析(authoritative Web page analysis)可以根据Web页面的重要性、影响性和主题,对网页进行排序。 自动Web页面聚类和分类有助于基于页面的内容,以多维的方式对Web页面进行分组和安排。 Web社区分析有助于识别隐藏的Web社会网络和社团,并观察它们的演变。 (
查看原文
)
豆友1579226
2013-04-24 17:43:40
—— 引自第13页
频繁模式(frequent pattern)是在数据中频繁出现的模式。存在多种类型的频繁模式,包括项集、子序列和子结构。 (
查看原文
)
豆友1579226
2013-04-24 18:10:30
—— 引自第15页
2.2.1. Measuring the Central Tendency: Mean, Median, and Mode (
查看原文
)
Evan
2013-07-31 14:50:01
—— 引自章节:2.2 Basic Statistical Descript
moda <- function(arr){ sort.arr <- sort(arr) max_count <- 0 count <- 0 last <- 0 for(x in sort.arr){ if(x == last){ count <- count + 1 }else{ last <- x if(count > max_count){ max_count <- count } } } return (last) } (
查看原文
)
Evan
2013-07-31 14:50:01
—— 引自章节:2.2 Basic Statistical Descript
2.2.3. Graphic Displays of Basic Statistical Descriptions of Data (
查看原文
)
Evan
2013-07-31 14:50:01
—— 引自章节:2.2 Basic Statistical Descript
A scatter plot is one of the most effective graphical methods for determining if there appears to be a relationship, pattern, or trend between two numeric attributes. library(car) scatterplot(mpg ~ wt | cyl, data=mtcars, xlab="Weight of Car", ylab="Miles Per Gallon", main="Enhanced Scatter Plot", labels=row.names(mtcars)) (
查看原文
)
Evan
2013-07-31 14:50:01
—— 引自章节:2.2 Basic Statistical Descript
χ2 Correlation Test for Nominal Data (
查看原文
)
Evan
2013-08-01 09:24:53
—— 引自章节:3.3.2. Redundancy and Correlat
Correlation Coefficient for Numeric Data (
查看原文
)
Evan
2013-08-01 09:24:53
—— 引自章节:3.3.2. Redundancy and Correlat
Covariance of Numeric Data (
查看原文
)
Evan
2013-08-01 09:24:53
—— 引自章节:3.3.2. Redundancy and Correlat
3.4.2. Wavelet Transforms (
查看原文
)
Evan
2013-08-01 09:55:58
—— 引自章节:3.4 Data Reduction
3.4.3. Principal Components Analysis (
查看原文
)
Evan
2013-08-01 09:55:58
—— 引自章节:3.4 Data Reduction
3.4.4. Attribute Subset Selection In machine learning, attribute subset selection is known as feature subset selection. 3.4.5. Regression and Log-Linear Models: Parametric Data Reduction (
查看原文
)
Evan
2013-08-01 09:55:58
—— 引自章节:3.4 Data Reduction
3.4.6. Histograms 3.4.7. Clustering 3.4.8. Sampling (
查看原文
)
Evan
2013-08-01 09:55:58
—— 引自章节:3.4 Data Reduction
聚类是一个把数据对象集划分成多个组或者簇的过程,使得簇内的对象具有很高的相似性,但与其他簇中的对象很不相似。 (
查看原文
)
k8哥
2013-12-03 18:41:44
—— 引自第292页
Web搜索引擎是一种专门的计算机服务器,在Web上搜索信息。通常,用户查询的搜索结果用一张表返给用户(有时称做采样(hit))。采样可以包含网页、图像和其他类型的文件。有些搜索引擎也搜索和返回公共数据库中的数据或开放的目录。搜索引擎不同于网络目录,因为网络目录是人工编辑管理的,而搜索引擎是按算法运行的,或者是算法和人工输入的混合。 Web搜索引擎本质上是大型数据挖掘应用。搜索引擎全方位地使用各种数据挖掘技术,包括爬行1(例如,决定应该爬过哪些页面和爬行频率)、索引(例如,选择被索引的页面和决定构建索引的范围)和搜索(例如,确定如何排列各个页面、加载何种广告、如何把搜索结果个性化或使之“环境敏感”)。 (
查看原文
)
已注销
2015-07-14 16:52:00
—— 引自第18页
>
我来写笔记
>
Data Mining
作者:
Jiawei Han, Micheline Kamber, Jian Pei
副标题:
Concepts and Techniques, Third Edition
isbn:
0123814790
书名:
Data Mining
页数:
744
定价:
USD 74.95
出版社:
Morgan Kaufmann
装帧:
Hardcover
出版年:
2011-7-6