第71页 第3章 大数据挖掘 3.4 挖掘过程
- 章节名:第3章 大数据挖掘 3.4 挖掘过程
- 页码:第71页
简单来说,结构化数据就是能够用统一长度的字段来表示的数据,如数字和符号。非结构化数据需要用不同长短的字段来表示。非结构化数据来源与网站上个人发布的文字、社交网络中大量的聊天纪录、各种被复制、转发或者重新编辑的Flash动画、各种格式的视频和音频等。 语义网络(Semantic network)是很重要的工具,它通过一系列文本中的概念与概念的关系网络来发现最重要的概念。 文本挖掘过程实际上是将大量人类语言材料按照计算机语言能够理解的方式分解,再重新组合成具有特定意义的计算机语言,然后被人理解,从中发现新的知识或模式。 文本挖掘技术包括自动分类、文本相似性检索(自动排重)、自动摘要+主题词标引(自由词+行业主题词)、常识校对、相关短语检索、自然语言检索等。 WEB挖掘的研究分类包含以下三类:WEB内容挖掘、WEB结构挖掘和WEB使用模式挖掘。 引自 第3章 大数据挖掘 3.4 挖掘过程
28人阅读
科教新人对本书的所有笔记 · · · · · ·
-
第63页 第3章 大数据挖掘 3.2 路径和思路
有两种常见的数据挖掘研究路径。第一种是比较传统的方式,可以称之为“假设检验”的方法。利...
-
第65页 第3章 3.3准备数据
数据挖掘的方法实际上可以视为在大量前人工作的基础上形成的计算机“思维模式”。奥尔森将数...
-
第71页 第3章 大数据挖掘 3.4 挖掘过程
-
第74页 第3章 大数据挖掘 3.5 未来的挑战
目前大多数的思路是,以“解码”的方式将大量非结构化的数据转为结构化数据,将多维的信息以...
-
第79页 第4章 大数据前瞻 4.1 “智慧地球”
IBM的“智慧地球”战略提出,把感应器嵌入和装备到各种物体中并被普遍连接,形成“物联网”;...
> 查看全部21篇
说明 · · · · · ·
表示其中内容是对原文的摘抄