《Hadoop安全》试读:1.2 Hadoop安全:简史
Hadoop 在存储和处理大量数据时效率很高,并且与其他平台相比更经济。Hadoop 项目最初的关注点是实际的技术实现,项目中许多代码涵盖的逻辑能够针对分布式系统中固有的复杂性进行处理,如故障处理与协同。由于这种较强的针对性,早期的Hadoop 项目建立了一个安全立场:整个机器集群和所有访问它的用户都是可信网络的一部分。这实际上意味着,Hadoop 并没有强安全策略强制执行很多措施。
随着Hadoop 项目的发展,显然,至少应当有一个机制能够对用户身份进行强有力的验证。Kerberos 被选作该项目的这种机制,它是一个完善的协议,如今广泛应用于MicrosoftActive Directory 等企业系统。在强认证策略之外,还要有强授权策略。强授权策略定义了单个用户被认证后能够做的事情。起初,授权策略是在单个组件上实现的,这意味着管理员需要在很多地方对授权控制进行定义。后来,在仍是孵化项目的Apache Sentry 中,授权机制终于变得容易了一些。但就像我们将在第6 章和第7 章中看到的一样,目前尚未有一个能在整个生态系统中具有整体统筹性的授权机制。
Hadoop 安全的另一个仍在演变的方面是,通过加密和其他机密性机制进行的数据保护。在可信网络中,人们起初假定数据本来就是被保护的,不会被非授权用户访问,因为只有授权用户才能接入可信网络。之后,Hadoop 为节点间的数据传输添加了加密手段,对硬盘上的数据存储也进行了加密。在后续的讲解中,你能看到这些安全策略的进化是如何产生的,但为了快速入门,首先还是需要关注Hadoop 的生态系统。