Databricks推出了新的开源项目来清理数据湖

互联网 2020-01-16 15:50:34

在我们对2018年的预测中,我们预测云存储将成为事实上的数据湖。目前的困境是,云存储就是为这种存储而设计的。但越来越多的业务分析师和数据科学家希望访问这些数据。有了Athena, AWS可以在S3中查询数据。ChaosSearch将您的Amazon S3存储变成了事实上的弹性搜索集群。云数据仓库将其范围扩展到查询云存储,而大多数云托管的Hadoop服务使用该存储层作为默认选项。

当然,挑战在于,涌入云存储的数据在默认情况下倾向于停留在那里。你猜怎么着?在这些场景中,像治理或数据沿袭跟踪这样的好东西最终会不一致地应用。诚然,如果只是为了在进行决策所依据的分析运行之前研究数据,那么损失可能看起来微不足道。这种理论的缺陷在于,在GDPR时代,企业可能在存储它们没有资格存储的数据时遇到麻烦。然后,当您有多个相互冲突的真相版本时,就会出现长期的数据验证问题。它会使数据科学或机器学习项目失去平衡。在数据湖时代,“垃圾进来,垃圾出去”几乎没有过时。

在Spark + AI峰会的筹备阶段,Databricks推出了一个新的开源项目——Delta Lake,它与河口或收获小龙虾无关。它使用Spark处理数据以使其具有事务性,并将其转换为通用的拼花格式。Delta Lake在Apache 2.0开放源码许可下可用,它应用了一个ACID事务层,该事务层固定在Spark数据管道上,以确保通过流和/或批处理到达的数据更新不会相互重叠,从而导致部分或重复的错误提交。如果无差异的云存储是事实上的数据湖,那么它的目标是开发一个干净的着陆区。

拥有事务支持意味着数据工程师或开发人员不必构建一个单独的层来确保一致的更新。考虑到数据湖通常有多个数据管道同时读取和写入数据,这将产生重大影响。数据库开发的事务支持,使数据提交干净;到目前为止,数据湖缺乏这样的机制,迫使数据工程师或开发人员编写自己的事务逻辑。在大多数情况下,什么都不做是默认选项,因为这是一种费力且难以维护的定制开发的替代方案。

Delta Lake允许您执行模式(如果您愿意),这是一个与关系数据库而不是数据湖更相关的概念(模式执行是可选的)。它还提供了快照,以便开发人员可以访问或恢复到以前的版本。这不仅对审计有用,而且对测试任何模型的有效性也有用。由于它是完全火花兼容,它将插入现有的火花数据管道。

而在三角洲湖,Databricks公司指望着这样一个事实:酸性物质不会污染湖泊,而是净化它们。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢