《数据架构》试读:1.5 企业数据分析

数据只有用于分析才能够体现其价值。因此,数据架构师必须要牢记:数据的最终用途是为了支持分析(这反过来又是对业务价值的支持)。 企业数据的分析与其他种类数据的分析非常类似,只有一个方面有所不同:大多数情况下,企业数据都有多种来源和多种数据类型。事实上,正是企业数据起源的多样化导致了企业数据分析的纷繁多样。图1.5.1描述了企业数据分析的需求。 图 1.5.1 对于所有的数据分析,首先要考虑的是该分析是一次正式分析还是一次非正式分析。正式分析要求得到企业层面的结果甚至法律层面的结果。有时,组织还必须在遵守合规性规则的前提下进行分析,例如那些实施萨班斯—奥克斯利法案(Sarbanes-Oxley Act)和健康保险流通与责任法案(Health Insurance Portability and Accountability Act,HIPAA)的管理型机构。还有很多其他类型的合规性,例如审计合规性等。当进行一次正式分析时,分析师必须提醒自己注意数据的有效性(validity)和数据谱系(lineage)。如果在正式分析中出现了不正确的数据,那么结果将非常可怕。因此,当进行正式分析时,数据的准确性及其谱系情况就非常重要。对于公共企业来说,必须要有外部的公共会计公司签署确认数据的质量和准确性。 另一种分析类型是非正式分析。非正式分析通常需要快速完成并且可以使用任何可获取到的数值。在非正式分析中使用准确的数据固然是一件好事,不过使用准确性略差的信息也并不会造成严重的后果。 在进行数据分析时,必须始终清楚自己所做的是正式分析还是非正式分析。 进行企业数据分析的第一步是从物理上收集要用于分析的数据。图1.5.2说明,企业数据通常都有很多不同的来源。 图 1.5.2 在很多情况下,数据来源都是由计算机管控的,因此从物理上收集数据并不是太大的问题。但是当数据存在于纸张等物理介质上时,就必须借助光学字符识别(optical character recognition,OCR)软件等技术来进行处理。如果数据是以通话形式存在的,还必须使用语音识别技术进行处理。 通常,从物理上收集数据是进行企业数据分析的最早步骤。这其中最大的挑战就在于逻辑消解问题。企业数据管理的逻辑消解是要解决这样的问题:将多个不同来源的数据集中到一起,并且无缝读取和处理这些数据。企业数据的逻辑消解面临很多难题,其中一些如下所示。  消解键结构:企业一部分所采用的键与企业另一部分所采用的类似键存在差别。  消解定义:企业中以某种方式定义的数据在企业另一部分中是以另一种方式定义的。  消解计算:企业中以某种方式进行的计算在企业另一部分中是采用不同的公式来计算的。  消解数据结构:企业中以某种结构组织的数据在企业的另一部分中是采用不同的结构来组织的。 这样的问题还有很多。 在很多情况下,消解都是非常困难的,而且这些困难都是数据中根深蒂固的,很难取得令人满意的消解结果。这样,最后出现的结果就是企业中不同的机构会做出不同分析结果。由不同的组织自己单独进行分析和计算的问题在于,他们得出的结果通常是目光狭隘的;而站在企业层面上的个人也难以洞察在企业的最高层面上发生了什么。 当数据跨越结构化数据和大数据的边界时,企业数据的消解问题就会被放大。即使在大数据的范畴之内,当跨越了重复型非结构化数据和非重复型非结构化数据的边界时,也会出现挑战。 因此,当企业试图在整个企业中创建一个有结合力的整体性数据视图时,就会面临巨大的挑战。如果确实存在企业级的数据基础,就有必要进行数据集成,如图1.5.3所示。 图 1.5.3 一旦完成数据集成(至少实际上已经集成了尽可能多的数据),数据就被重新格式化为规范化形式。数据组织结构的规范化并没有多少特殊的魔力,它主要起到以下两个作用。  规范化是一种组织数据的逻辑方式。  在规范化数据的基础之上,分析处理工具能够发挥出更好的性能。 图1.5.4指出,进行了规范化的数据很容易进行分析。 图 1.5.4 规范化的结果就是可将数据存放于平面文件记录中。一旦数据可存放于规范化的平面文件记录中,就很容易对其进行计算、比较等规范化处理。 规范化是数据用于分析处理时具备的最佳状态,因为在规范化状态下,数据处于一个粒度极低点。当数据处于粒度极低点时,可以采用多种方式对数据进行归类和计算。打个比方,处于规范化状态的数据与硅颗粒类似。原始的硅颗粒可以经过重组和再制造形成多种不同的形态,例如玻璃、计算机芯片和身体植入物等。同样的道理,规范化的数据也可经再处理之后用于多种形式的分析。 (请注意,将数据规范化并不意味着数据一定要以关系结构存放。在大多数情况下,规范化数据都是以关系结构存放的,但是如果有一定道理的话,采用某种非关系结构来存放数据也未尝不可。) 无论采用怎样的结构来组织数据,其结果都是将规范化的数据存放在关系型或者非关系型的数据记录之中,如图1.5.5所示。 图 1.5.5 将数据结构化为某种颗粒状态之后,就可以采用多种方式来分析这些数据了。实际上,当企业数据实现了集成并且以粒度化状态存放之后,企业数据的分析就与其他种类数据的分析没有太大区别了。 一般来说,数据分析的第一步是进行数据归类。图1.5.6展示了数据的归类过程。完成数据归类之后,就可以紧接着做多种分析了。一种典型的分析就是异常数据的识别。例如,分析师可能希望找出去年所有消费超过1000美元的顾客,也可能希望找出那些日产量峰值超过25个单位的日期,还有可能希望找出一天之中有哪些重量超过50磅的产品被涂上了红色。图1.5.7展示了异常分析过程。 图 1.5.6 图 1.5.7 另一种简单形式的分析是对数据进行归类和计数。图1.5.8显示了一种简单的归类和计数过程。 图 1.5.8 当然,在按照类别进行计数之后,还可以对各个类别进行比较,如图1.5.9所示。 图 1.5.9 另一种典型的分析是根据时间变化来比较信息,如图1.5.10所示。 图 1.5.10 最后,还有关键性能指标(key performance indicator,KPI)。图1.5.11给出了按照时间推移计算和跟踪KPI的情形。 图 1.5.11

>数据架构

数据架构
作者: [美] W.H. Inmon, [美] Daniel Linstedt
副标题: 大数据、数据仓库以及Data Vault
isbn: 7115438439
书名: 数据架构
页数: 277
译者: 唐富年
定价: 69.00元
出版社: 人民邮电出版社
出版年: 2016-11
装帧: 平装
出品方: 图灵教育