第一部分文本挖掘技术
第一章 技术介绍
1.1 整合文本挖掘与数据挖掘 7
1.2 基础技术 10
第二章 资料分析
2.1 挖掘流程 20
2.1.1 数据分析 21
2.1.2 基础挖掘 26
第二部分文本挖掘以软件R为例
第一章 绪论
1.1 什么是Big Data 31
1.2 数据挖掘 32
1.3 文字挖掘 33
1.4 R软件 34
1.4.1 R简介 34
1.4.2 R的特色 34
1.4.3 R的基本安装 35
1.4.4 包安装 35
第二章 基本工具
2.1 基本工具 37
2.1.1 安装rJava包 37
2.1.2 安装Rwordseg包 37
2.1.3 安装tm包 38
2.1.4 安装tmcn包 38
2.1.5 安装wordcloud、ggplot2、graphics包 38
2.1.6 安装Rfacebook、Rweibo、Rtwitter包 38
2.2 社群开放平台权限申请 39
2.2.1 如何获得Facebook权限 39
2.2.2 如何获得Weibo权限 46
第三章 文字挖掘之爬虫
3.1 R Facebook 50
3.1.1 使用者发文 50
3.1.2 粉丝者发文 51
3.1.3所需R包(Rfacebook、fbOAuth、getPage、getPost) 54
3.2 R Weibo 58
3.2.1 主题 58
3.2.2 时间区间 59
3.2.3 所需R包(XML、Rweibo、web.search.content) 61
3.3 R Twitter 64
3.3.1 关键词 64
3.3.2 所需R包(devtools、rjson、bit64、httr、twitteR、sink) 66
3.4 网页爬虫 70
3.4.1 爬一般网页文字 70
3.4.2 爬PTT网页文字 74
3.4.3 所需R包(XML、RCurl) 76
3.5 SpideR 79
3.5.1 所需R包 79
3.5.2 有关爬虫时的注意事项 79
3.5.3 抓取网页数据的标准作业程序 80
3.5.4 R IDE的Encoding 80
3.5.5 读取档案或网页的Encoding 81
3.5.6 R IDE 开发SpideR 面对Encoding 的解决方案 82
第四章 数据预处理
4.1 编码处理 83
4.2 代表性语料库、词库简介 85
4.3 断词方法 90
4.4 字词处理 93
4.5 语料库建立 95
4.6 正则表达式(Regular Expressions) 98
第五章 资料分析
5.1 频率 99
5.2 DTM(TDM) matrix 100
5.3 关联分析 103
5.4 集群分析 104
5.5 主成份分析 109
5.6 词云聚类分析 114
第三部分文本挖掘 MS SQL Sever
第一章 数据预处理
1.1 汇入文档 NGArticles 120
1.2 建立NGArticles的辞库 130
1.2.1 建立字词 (Dictionary) 130
1.2.2 建立词向量 145
1.2.3 建立Train Sample和Test Sample 154
第二章 资料分析
2.1 串联Train Sample、Test Sample和TermVectors 160
2.2 建构datamining模型(判定树、类神经网络、罗吉斯回归) 164
2.3 图表分析 173
2.3.1 各模型之精确度图表分析 173
2.3.2 判定树图表分析 175
2.3.3 类神经网络图表分析 176
第四部分 TextMining在实务上的应用
1.1 创造商机 205
1.2 结语 213
· · · · · · (
收起)
0 有用 yo来yo去 2022-06-24 09:06:34
以R软件为例实现文本挖掘
0 有用 NF 2017-12-15 19:53:00
哎,Rweibo还能用吗?
0 有用 荒原之海|ado 2016-07-22 16:19:53
垃圾书,代码完全没有经过调试,大量的语法错误
0 有用 yo来yo去 2022-06-24 09:06:34
以R软件为例实现文本挖掘
0 有用 NF 2017-12-15 19:53:00
哎,Rweibo还能用吗?
0 有用 荒原之海|ado 2016-07-22 16:19:53
垃圾书,代码完全没有经过调试,大量的语法错误