Platform orkestrasi workflow open-source yang memungkinkan penjadwalan, monitoring, dan manajemen pipeline data kompleks menggunakan kode Python.

Apache Airflow adalah platform orkestrasi workflow yang digunakan untuk mendefinisikan, menjadwalkan, dan memantau alur kerja (pipeline) data secara programatik menggunakan Python.

Konsep Inti Airflow

DAG (Directed Acyclic Graph)

Unit utama dalam Airflow. DAG adalah representasi alur kerja - kumpulan task beserta dependensinya yang membentuk graf berarah tanpa siklus.

Task

Setiap langkah dalam DAG. Sebuah task bisa berupa query SQL, script Python, API call, atau bash command.

Operator

Template task yang sudah siap pakai. Contoh:

  • PythonOperator: Jalankan fungsi Python
  • BashOperator: Jalankan perintah bash
  • PostgresOperator: Jalankan query SQL
  • HttpOperator: Panggil REST API

Scheduler

Komponen yang memantau DAG dan menjalankan task sesuai jadwal atau trigger.

Airflow vs Alternatif

AspekApache AirflowPrefectDagster
PendekatanDAG PythonFlow PythonAsset-centric
SetupKompleksLebih mudahSedang
ObservabilityCukupBagusSangat bagus
Learning curveTinggiSedangSedang
Managed optionsMWAA, Composer, AstronomerPrefect CloudDagster Cloud

Komponen Airflow

  • Web Server: UI untuk monitor DAG dan task
  • Scheduler: Memantau DAG dan trigger task
  • Executor: Menjalankan task (Sequential, LocalExecutor, CeleryExecutor, KubernetesExecutor)
  • Metadata DB: PostgreSQL/MySQL untuk menyimpan state DAG dan task
Lanjut Latihan

Udah paham Apache Airflow? Lanjut latihan SQL dan Excel yuk!

Latihan interaktif, langsung di browser.

Mulai Latihan →