今年夏天,Databricks 和 Apache Iceberg 都推出了对其开放表格式的增强功能。 Databricks 宣布
大约在同一时间,Iceberg 宣布了一系列对查询引擎和平台的新支持,包括
让我们将这些公告放在上下文中。开放表格式使数据湖能够达到过去只能通过传统数据仓库或数据库才能实现的性能和合规性标准,同时保留数据湖环境的灵活性。
开放表格式主要有以下三种:
关于不同格式之间的选择已经有很多文章,其中一些声称最多
甚至在这些最近的公告之前,开放表格式就已经成为现代数据湖设计不可或缺的一部分。相反,数据湖已经成为现代数据堆栈不可或缺的一部分。最近
云原生数据湖及其组件和技术(例如开放表格式)已成为现代数据堆栈的中心舞台,这并不奇怪。这与批发给希望将“云技术”一词应用到其老化系统上的组织的传统的、单一的遗留硬件和软件形成鲜明对比。成为云原生不仅仅是添加一个 API——现代数据堆栈是一个模块化的、专门的工具集合,专为各种数据处理方面量身定制。它专为适应性而构建,诞生于云中并遵循高性能标准。使现代数据堆栈成为组织引人注目的选择的功能。该堆栈的模块化提供了一系列选项,允许组织构建符合其特定需求的定制数据基础设施,从而在不断发展的数据环境中培养敏捷性。
尽管选项范围不断变化,但堆栈组件中仍存在一些定义特征:
云原生:现代数据堆栈旨在跨不同的云环境无缝扩展,确保与多个云的兼容性,以防止供应商锁定。
优化的性能:该堆栈专为提高效率而设计,包含采用软件优先方法和性能设计的组件。
RESTful API 兼容性:该堆栈在其组件之间建立了标准化的通信框架。这促进了互操作性并支持微服务的创建。
分解存储和计算:该堆栈可以独立扩展计算资源和存储容量。这种方法允许每个方面根据特定需求进行扩展,从而优化成本效率并增强整体性能。
对开放性的承诺:除了支持开放表格式之外,现代数据堆栈还以开源解决方案的形式拥抱开放性。这一承诺消除了专有孤岛并减轻了供应商锁定,促进了协作、创新并提高了数据可访问性。对开放性的奉献增强了堆栈跨各种平台和工具的适应性,确保了包容性。
真正拥抱数据可移植性和互操作性意味着能够随时随地创建和访问数据。这种方法提高了灵活性,使组织能够利用各种工具的功能,而不受供应商锁定或数据孤岛的限制。目标是实现数据的普遍访问,促进组织内更加敏捷和适应性更强的数据生态系统。
了解云作为一种操作模型是基于云原生技术的原则构建的,而不是基于特定位置,这对于实现数据可移植性至关重要。一些组织
许多成熟的组织正在积极采用这一理念,选择从云中转移工作负载并实现大幅成本节省,例如
Databricks、Apache Iceberg 和 Hudi 最近在开放表格式方面取得的进展标志着数据管理的关键时刻。 Delta Lake 3.0 的通用兼容性和对 Apache Iceberg 的扩展支持展示了数据基础设施公司和现场实施者对无缝数据可移植性和互操作性的承诺。
这些发展与现代数据堆栈固有的模块化相一致,其中开放表格式在实现性能和合规性标准方面发挥着核心作用。这种转变不是孤立的,而是与云运营模式相交叉的。除了公共云的吸引力之外,通过在私有基础设施上采用云运营模式还可以产生真正的影响和成本节省。
开放表格式、现代数据堆栈和云操作模型的融合标志着数据管理的变革时代。这种方法确保了跨各种环境的适应性,无论是公共环境还是私有环境、本地部署环境。对于那些应对数据湖架构复杂性的人,我们的 MinIO 团队随时准备提供帮助。请通过 hello@minio.io 或我们的