Data Lineage

Menengah

Rekam jejak perjalanan data dari sumber asalnya hingga tujuan akhir - menunjukkan asal-usul data, transformasi yang dilakukan, dan semua sistem yang dilalui sepanjang jalan.

Data Lineage adalah dokumentasi visual dan teknis tentang perjalanan data dari sumber asalnya (misalnya database transaksi) hingga laporan akhir atau model ML yang menggunakannya.

Dua Arah Data Lineage

Forward Lineage (Upstream → Downstream)

Mulai dari sumber, ikuti ke mana data mengalir:

  • Tabel orders (sumber) → dbt model stg_orders → fct_monthly_revenue → Dashboard Tableau

Berguna untuk: Impact analysis - "Jika saya ubah kolom ini, apa yang terpengaruh?"

Backward Lineage (Downstream → Upstream)

Mulai dari laporan, lacak ke sumber aslinya:

  • Dashboard revenue menampilkan angka aneh → fct_monthly_revenue → stg_orders → Tabel orders → ETL Fivetran → Database produksi

Berguna untuk: Root cause analysis - "Angka ini dari mana asalnya?"

Level Granularitas Lineage

LevelContohTool
Table-levelorders → stg_orders → fct_revenuedbt, Apache Atlas
Column-levelamount (orders) → amount_idr (stg) → total_revenue (fct)Alation, Atlan
Job-levelAirflow DAG → Spark job → Redshift tableMarquez, OpenLineage

Lineage vs Audit Log

AspekData LineageAudit Log
FokusAlur transformasi dataSiapa akses apa kapan
TujuanImpact analysis, root causeSecurity, compliance
FormatGraf/diagramTabel log
Lanjut Latihan

Udah paham Data Lineage? Lanjut latihan SQL dan Excel yuk!

Latihan interaktif, langsung di browser.

Mulai Latihan →