Question 1

Apa itu Data Pipeline?

Accepted Answer

Serangkaian proses otomatis yang memindahkan dan mengubah data dari sumber ke tujuan secara terstruktur dan terjadwal.

Question 2

Kapan Data Pipeline digunakan?

Accepted Answer

Sinkronisasi data dari database produksi ke Data Warehouse setiap malam. Real-time fraud detection menggunakan streaming pipeline. Agregasi data penjualan dari multiple toko untuk reporting terpusat. ETL data dari CRM ke Data Mart untuk tim marketing. Ingestion data IoT sensor secara real-time

Question 3

Apa kesalahpahaman umum tentang Data Pipeline?

Accepted Answer

Data pipeline bukan hanya tentang ETL - mencakup semua pergerakan data, termasuk streaming dan ML pipelines. Pipeline yang kompleks tidak selalu lebih baik - mulai sederhana, komplekskan hanya jika dibutuhkan. Pipeline tidak perlu real-time untuk semua kasus - daily batch seringkali sudah cukup

Aspek	Batch Pipeline	Streaming Pipeline
Timing	Terjadwal (hourly, daily)	Real-time / near real-time
Latency	Menit sampai jam	Milidetik sampai detik
Kompleksitas	Lebih sederhana	Lebih kompleks
Tools	Airflow, dbt	Kafka, Flink, Spark Streaming
Use case	Reporting, DWH	Fraud detection, live dashboard

Data Pipeline

Anatomi Data Pipeline

1. Source (Sumber Data)

2. Ingest (Pengambilan)

3. Transform (Transformasi)

4. Store (Penyimpanan)

Batch vs Streaming Pipeline

Istilah Terkait

ETL

ELT

CDC

Batch Processing

Stream Processing