Lakehouse Architecture

Menengah

Arsitektur data yang gabungkan fleksibilitas data lake (bisa simpan data apapun termasuk unstructured) dengan struktur dan kemampuan analitik data warehouse (ACID transactions, fast query, schema enforcement) dalam satu sistem.

Apa itu Lakehouse Architecture?

Lakehouse adalah arsitektur data yang menggabungkan keunggulan Data Lake dan Data Warehouse dalam satu sistem. Istilah ini dipopulerkan oleh Databricks dan dibahas dalam paper akademis mereka tahun 2021.

Untuk ngerti Lakehouse, kamu perlu ngerti dulu dua arsitektur yang ia gabungkan dan masalah yang masing-masing punya.

Data Lake vs Data Warehouse: Masalah Lama

AspekData LakeData Warehouse
StorageRaw files (Parquet, JSON, CSV)Structured tables
SchemaSchema-on-read (fleksibel)Schema-on-write (ketat)
CostMurah (object storage S3/GCS)Lebih mahal
Query performaLambat tanpa optimasiCepat
Tipe dataSemua tipe: video, teks, structuredStructured saja
ACID transactionsNggak adaAda
Cocok untuk ML/AIMudah (raw data tersedia)Terbatas
Cocok untuk BISusah langsungIdeal

Masalahnya: kalau pakai Data Lake, analytics jadi susah karena nggak ada struktur. Kalau pakai Data Warehouse, data science dan ML jadi terbatas karena cuma bisa simpan structured data. Perusahaan akhirnya punya keduanya, yang artinya data duplikat, pipeline ganda, dan biaya berlipat.

Bagaimana Lakehouse Menjawab Ini?

Lakehouse menambahkan 'metadata dan transaction layer' di atas object storage (kayak S3 atau GCS), sehingga data tetap tersimpan di object storage yang murah tapi bisa di-query dengan performa tinggi dan punya ACID transactions.

Teknologi yang enable ini disebut open table formats.

Open Table Formats: Teknologi Kunci Lakehouse

FormatPeloporKekuatan
Delta LakeDatabricksTime travel, ACID, Spark native
Apache IcebergNetflixMulti-engine support, hidden partitioning
Apache HudiUberStreaming upserts, incremental processing

Iceberg misalnya sekarang sudah bisa berjalan di atas BigQuery, Snowflake, dan banyak engine lain: bukan cuma Spark.

Medallion Architecture di Lakehouse

Pola yang sering dipakai dalam Lakehouse adalah Medallion Architecture:

  • Bronze layer: Raw data persis seperti dari source, belum disentuh
  • Silver layer: Data yang sudah dibersihkan dan distandarisasi
  • Gold layer: Data yang sudah diagregasi dan siap untuk analytics atau ML

Kenapa Penting untuk ML dan AI?

Salah satu keunggulan besar Lakehouse adalah ML dan analytics bisa jalan di data yang sama. Nggak perlu copy data dari data lake ke warehouse untuk analytics, atau sebaliknya untuk ML. Ini bikin iteration lebih cepat dan data lebih konsisten. Tim data science dan tim analytics bisa collaborate di atas satu platform yang sama.

Lanjut Latihan

Udah paham Lakehouse Architecture? Lanjut latihan SQL dan Excel yuk!

Latihan interaktif, langsung di browser.

Mulai Latihan →