Databricks
Platform analitik terpadu berbasis cloud yang menggabungkan Apache Spark, SQL, machine learning, dan Delta Lake dalam satu workspace kolaboratif untuk data engineer, analyst, dan data scientist.
Databricks adalah platform Data + AI yang dibangun di atas Apache Spark oleh para pendiri Spark itu sendiri. Databricks menyederhanakan kompleksitas Spark dan menawarkan ekosistem lengkap untuk seluruh workflow data.
Lakehouse Architecture
Databricks mempopulerkan konsep Lakehouse - arsitektur yang menggabungkan keunggulan Data Lake (storage murah, fleksibel) dan Data Warehouse (performa tinggi, ACID transactions) melalui Delta Lake.
| Aspek | Data Lake | Data Warehouse | Lakehouse (Databricks) |
|---|---|---|---|
| Storage | Murah (S3/ADLS) | Mahal (proprietary) | Murah (S3/ADLS) |
| Format | Parquet, CSV, JSON | Proprietary | Delta Lake (open) |
| ACID | Tidak | Ya | Ya |
| Schema | Schema-on-read | Schema-on-write | Keduanya |
| ML support | Via Spark | Terbatas | Langsung (MLflow) |
Komponen Utama Databricks
Delta Lake
Format storage open source dengan ACID transactions, schema enforcement, dan time travel di atas data lake.
Unity Catalog
Governance layer terpusat untuk data dan AI assets - akses control, lineage, discovery.
Databricks SQL
SQL warehouse managed untuk analitik dan BI, terhubung ke Tableau/Power BI/Looker.
MLflow
Platform open source untuk machine learning lifecycle: tracking, packaging, dan deployment model.
Databricks Workflows
Orkestrasi job secara native - alternatif Airflow yang terintegrasi dengan ekosistem Databricks.
Udah paham Databricks? Lanjut latihan SQL dan Excel yuk!
Latihan interaktif, langsung di browser.