올 여름 Databricks와 Apache Iceberg는 모두 오픈 테이블 형식에 대한 향상된 기능을 출시했습니다. 데이터브릭스 발표
비슷한 시기에 Iceberg는 다음을 포함하여 쿼리 엔진 및 플랫폼에 대한 수많은 새로운 지원을 발표했습니다.
이러한 발표를 맥락에 맞게 살펴보겠습니다. 개방형 테이블 형식을 사용하면 데이터 레이크 환경의 유연성을 유지하면서 과거에는 기존 데이터 웨어하우스나 데이터베이스를 통해서만 달성할 수 있었던 성능 및 규정 준수 표준을 데이터 레이크에서 달성할 수 있습니다.
세 가지 주요 공개 테이블 형식이 있습니다.
다양한 형식 중에서 선택하는 방법에 대해 많은 글이 작성되었으며 일부는 다음과 같이 주장합니다.
최근 발표 이전에도 개방형 테이블 형식은 이미 최신 데이터 레이크 설계의 필수 요소가 되었습니다. 그리고 상호적으로 데이터 레이크는 최신 데이터 스택의 필수 요소였습니다. 최근
클라우드 네이티브 데이터 레이크와 개방형 테이블 형식과 같은 해당 구성 요소 및 기술이 최신 데이터 스택의 중심 무대가 된 것은 놀라운 일이 아닙니다. 이는 노후화된 시스템에 '클라우드 기술'이라는 문구를 적용하려는 조직에 도매로 판매되는 기존의 모놀리식 레거시 하드웨어 및 소프트웨어와는 극명한 대조를 이룹니다. 클라우드 네이티브가 된다는 것은 API를 추가하는 것 이상입니다. 최신 데이터 스택은 다양한 데이터 처리 측면에 맞춰진 모듈식의 전문화된 도구 앙상블입니다. 적응성을 위해 구축되었으며 클라우드에서 태어나 고성능 표준을 준수합니다. 최신 데이터 스택을 조직에 매력적인 선택으로 만드는 기능입니다. 스택의 모듈성은 다양한 옵션을 제공하므로 조직은 특정 요구 사항에 맞는 맞춤형 데이터 인프라를 구축하고 지속적으로 진화하는 데이터 환경에서 민첩성을 키울 수 있습니다.
이렇게 지속적으로 발전하는 옵션 범위에도 불구하고 스택의 구성 요소를 관통하는 정의적인 특성이 있습니다.
클라우드 네이티브: 최신 데이터 스택은 다양한 클라우드 환경에서 원활하게 확장되도록 설계되어 공급업체 종속을 방지하기 위해 여러 클라우드와의 호환성을 보장합니다.
최적화된 성능: 효율성을 위해 설계된 스택에는 소프트웨어 우선 접근 방식과 성능을 위한 설계를 채택하는 구성 요소가 통합되어 있습니다.
RESTful API 호환성: 스택은 구성 요소 간에 표준화된 통신 프레임워크를 설정합니다. 이는 상호 운용성을 촉진하고 마이크로서비스 생성을 지원합니다.
분리된 스토리지 및 컴퓨팅: 스택을 사용하면 컴퓨팅 리소스와 스토리지 용량을 독립적으로 확장할 수 있습니다. 이 접근 방식은 각 측면을 특정 요구 사항에 따라 확장할 수 있도록 하여 비용 효율성을 최적화하고 전반적인 성능을 향상시킵니다.
개방성에 대한 헌신: 개방형 테이블 형식 지원을 넘어 최신 데이터 스택은 오픈 소스 솔루션 형태의 개방성을 수용합니다. 이러한 약속은 독점 사일로를 제거하고 공급업체 종속을 완화하여 협업, 혁신을 촉진하고 데이터 접근성을 향상시킵니다. 개방성에 대한 헌신은 다양한 플랫폼과 도구 전반에 걸쳐 스택의 적응성을 강화하여 포괄성을 보장합니다.
데이터 이동성과 상호 운용성을 진정으로 수용한다는 것은 데이터가 어디에 있든 생성하고 액세스할 수 있다는 것을 의미합니다. 이러한 접근 방식은 유연성을 촉진하여 조직이 공급업체 종속이나 데이터 사일로의 제약을 받지 않고 다양한 도구의 기능을 활용할 수 있도록 해줍니다. 목표는 데이터에 대한 보편적인 액세스를 활성화하여 조직 내에서 보다 민첩하고 적응 가능한 데이터 생태계를 촉진하는 것입니다.
운영 모델로서의 클라우드가 특정 위치가 아닌 클라우드 네이티브 기술의 원칙을 기반으로 구축되었다는 점을 이해하는 것은 데이터 이동성을 달성하는 데 중요합니다. 일부 조직
많은 기존 조직이 이 철학을 적극적으로 채택하여 클라우드에서 워크로드를 송환하고 상당한 비용 절감을 달성하고 있습니다.
Databricks, Apache Iceberg 및 Hudi의 최근 공개 테이블 형식 발전은 데이터 관리의 중추적인 순간을 의미합니다. Delta Lake 3.0의 보편적인 호환성과 Apache Iceberg에 대한 확장된 지원은 데이터 인프라 회사와 현장 구현업체 모두가 원활한 데이터 이동성과 상호 운용성에 대한 의지를 보여줍니다.
이러한 개발은 개방형 테이블 형식이 성능 및 규정 준수 표준을 달성하는 데 중심적인 역할을 하는 최신 데이터 스택의 고유한 모듈성과 일치합니다. 이러한 변화는 고립되지 않고 클라우드 운영 모델과 교차합니다. 퍼블릭 클라우드의 매력을 넘어서 프라이빗 인프라에 클라우드 운영 모델을 수용하면 실질적인 효과와 비용 절감 효과가 나타납니다.
개방형 테이블 형식, 최신 데이터 스택, 클라우드 운영 모델의 융합은 데이터 관리의 혁신 시대를 의미합니다. 이 접근 방식은 퍼블릭이든 프라이빗이든 온프레미스 온-에지 등 다양한 환경 전반에 걸쳐 적응성을 보장합니다. 데이터 레이크 아키텍처의 복잡성을 탐색하는 경우 MinIO 팀이 도움을 드릴 준비가 되어 있습니다. hello@minio.io 또는 우리의 이메일에 참여하세요