《数据架构》试读:1.1 企业数据

1.1 企业数据 如今,人们在处理数据的时候很容易迷失。数据有很多种不同的类型,而且每个类型的数据都有其自身的风格和特质。产品、供应商和应用程序都变得过于专注自己所处的特定世界,忽视了用更加宽广的视野来考察如何将各种事物组合成一个整体。因此,后退一步用更宽广的视野看待数据,经常能够获得更为恰当的观点。 1.1.1 企业的全体数据 试想一下企业里所能找到的所有数据。图1.1.1简要描述了企业中全体数据的情况。 图 1.1.1 这里的全体数据包括与企业中各类型数据相关的所有事项。 进一步细分企业中的全体数据有很多种方式。一种细分方式(但是肯定不是唯一方式)是将全体数据划分为结构化数据和非结构化数据,如图1.1.2所示。 图 1.1.2 结构化数据是一种可预见、经常出现的数据格式。通常,结构化数据包括记录、属性、键和索引等,可以通过数据库管理系统(database management system,DBMS)进行管理。结构化数据是定义良好的、可预测的,并且可通过复杂的基础设施进行管理。通常,结构化环境中的大多数数据单元都可以很快地进行定位。 相反,非结构化数据是不可预见的,而且没有可以被计算机识别的结构。访问非结构化数据通常很不方便,想要查找给定的数据单元,就必须顺序搜索(解析)长串的数据。非结构化数据有很多种形式和变体。最常见的非结构化数据的表现形式也许就是文本了。然而无论如何,文本都不是非结构化数据的唯一形式。 1.1.2 非结构化数据的划分 非结构化数据可以进一步划分成两种基本的数据形式:重复型非结构化数据和非重复型非结构化数据。与企业数据的划分一样,非结构化数据的细分方式也有很多种。这里给出的只是其中一种细分非结构化数据的方法。图1.1.3展现了非结构化数据的这一细分方法。 图 1.1.3 重复型非结构化数据是指以同样的结构甚至同样的形态出现多次的数据。通常,重复型数据会出现很多很多次。重复型数据的结构与之前的记录看起来完全一样或者大致相同。没有用于管理重复型非结构化数据内容的大型复杂基础设施。 非重复型非结构化数据是指记录截然不同的数据。通常,每个非重复型的记录都与其他记录明显不同。 企业数据类型的划分有多种不同的体现。参见图1.1.4中所示的数据。 图 1.1.4 结构化数据通常是交易的副产品。每当一次销售完成时,每当银行账户有取款操作时,每当有人在ATM机上办理业务时,每当发送一份账单时,都会产生一条交易记录。交易记录最终会形成一条条结构化的记录。 重复型非结构化数据则有所不同。非结构化的重复记录通常是机器间交互所产生的记录,例如对即将离开生产过程的产品进行模拟验证,或者对消费者的能源用量进行计量等。就拿计量来说,在读取计量读数时,会产生大量在形式和内容上重复的记录。 非重复型非结构化信息与重复型非结构化记录有着根本性的不同。对于非重复型非结构化记录而言,它们无论在形式还是内容上都很少重复或者根本不重复。非重复型非结构化信息的例子有电子邮件、呼叫中心对话和市场调查等。当你查看一封电子邮件时,会有很大概率发现数据库中的下一封邮件与前一封邮件是极为不同的。对呼叫中心信息、质保索赔、市场调查等数据来说也是如此。 1.1.3 业务相关性 重复型非结构化数据和非重复型非结构化数据在很多方面都有着极为不同的特征,其中一方面就是业务相关性。在重复型非结构化数据中,通常只有很少的记录具备真正的业务价值。然而,非重复型非结构化数据则有很大比例与业务相关。 这两种数据在业务相关性方面的不同如图1.1.5所示。 图 1.1.5 非结构化重复型数据中只有很小比例是与业务相关的。例如,可以设想一下每天数以百万计的电话呼叫;政府只对其中的极小一部分感兴趣。此外,还可以设想一下生产控制信息;几乎所有生产记录都不会引起人们的兴趣,只有极少数除外(通常是当测量参数超过某个阈值时)。一般情况下,对重复型非结构化的记录而言,还存在一些虽然并不能直接或马上引起人们兴趣但是却存在潜在价值的记录。 对于非重复型非结构化数据而言,人们不感兴趣的记录就没那么多了。尽管其中有垃圾信息和停用词,但是除了这两种类别的信息之外,几乎其他所有的非结构化非重复型数据都是人们感兴趣的。 1.1.4 大数据 值得注意的是,企业中的大数据包括重复型非结构化数据和非重复型非结构化数据,如 图1.1.6所示。 图 1.1.6 1.1.5 分界线 一开始,对于非结构化数据的两种类型(重复型非结构化数据和非重复型非结构化数据),我们可能认为它们之间的差别是难以预料、微不足道的。实际上,这两种非结构化数据类型之间的差异并非微不足道。因为这两种非结构化数据类型存在深刻差异,所以它们之间存在一条明显的分界线。 图1.1.7展现了分割两种非结构化数据类型的分界线。 图 1.1.7 之所以用这条分界线划分非结构化数据的两种类型,是因为在分界线一边的数据是以一种方式处理的,而在分界线另一边的数据则是以另一种完全不同的方式处理的。实际上,在分界线两边的数据也可能完全不同。 按照数据处理方式进行划分的原因是,重复型非结构化数据几乎完全是通过一个管理Hadoop的固定设施来处理的。对于重复型非结构化数据而言,其重点完全集中在对大数据管理器(例如Hadoop)中的数据进行访问、监视、显示、分析和可视化。 非重复型非结构化数据的重点则几乎完全集中在文本消歧上。这里的重点在于消歧的类型、输出的重新格式化、数据的上下文分析和数据的标准化等。 该分界线值得注意的一点是,围绕分界线两边不同类型的数据形成的学科也是完全不同的。文本消歧与访问和分析Hadoop中的数据是两个极为不同的课题。正是因为这两个领域存在极大差异,可以说这两个领域属于完全不同的范畴,之间毫无关系。 可以用一个比喻来说明管理Hadoop和管理文本消歧这两个领域有多么不同。管理Hadoop就像生物医学领域,而文本消歧领域就像竞技骑牛领域。这两个领域截然不同,二者之间根本没有可比性。研究生物医学领域的人完全不知道骑着一头野牛是什么感觉,而擅长骑野牛的骑牛士与生产新药所需的规程格格不入。 图1.1.8描绘了这两个领域之间的差别。 图 1.1.8 1.1.6 大陆分水岭 与非结构化数据分界线相似的另一条分界线是北美大陆分水岭(如图1.1.9所示)。大陆分水岭一侧的降水会流向大西洋方向,而另一侧的降水则流向完全不同的太平洋方向。 图 1.1.9 1.1.7 企业数据全貌 图1.1.10展现了企业数据的全貌。 图 1.1.10 图1.1.10用于描述不同类型的企业数据如何相互关联,并列展现了不同形式的数据及其如何相互关联。每个数据细分都有其自己的处理和管理方法。 图1.1.11给出了企业数据的另一种描绘方式,将大数据作为一个整体来展现。 图 1.1.11

>数据架构

数据架构
作者: [美] W.H. Inmon, [美] Daniel Linstedt
副标题: 大数据、数据仓库以及Data Vault
isbn: 7115438439
书名: 数据架构
页数: 277
译者: 唐富年
定价: 69.00元
出版社: 人民邮电出版社
装帧: 平装
出版年: 2016-11