Data Pipeline

Pemula

Serangkaian proses otomatis yang memindahkan dan mengubah data dari sumber ke tujuan secara terstruktur dan terjadwal.

Data Pipeline adalah serangkaian langkah otomatis yang mengalirkan data dari satu sistem ke sistem lain, seringkali dengan transformasi di tengah perjalanan.

Anatomi Data Pipeline

Source → Ingest → Transform → Store → Serve
(DB/API) → (Extract) → (Clean/Enrich) → (DWH/Lake) → (BI/ML)

1. Source (Sumber Data)

  • Database transaksional (PostgreSQL, MySQL)
  • APIs (REST, GraphQL)
  • File (CSV, JSON, Parquet)
  • Message queue (Kafka, RabbitMQ)
  • SaaS applications (Salesforce, HubSpot)

2. Ingest (Pengambilan)

  • Full load: ambil semua data setiap kali
  • Incremental load: hanya data baru/berubah
  • Change Data Capture (CDC): tangkap perubahan real-time

3. Transform (Transformasi)

  • Cleaning: hapus duplikat, fix format
  • Enrichment: gabungkan dengan data referensi
  • Aggregation: ringkasan untuk analisis

4. Store (Penyimpanan)

  • Data Warehouse: untuk analisis terstruktur
  • Data Lake: untuk semua tipe data raw
  • Data Mart: subset untuk departemen tertentu

Batch vs Streaming Pipeline

AspekBatch PipelineStreaming Pipeline
TimingTerjadwal (hourly, daily)Real-time / near real-time
LatencyMenit sampai jamMilidetik sampai detik
KompleksitasLebih sederhanaLebih kompleks
ToolsAirflow, dbtKafka, Flink, Spark Streaming
Use caseReporting, DWHFraud detection, live dashboard
Lanjut Latihan

Udah paham Data Pipeline? Lanjut latihan SQL dan Excel yuk!

Latihan interaktif, langsung di browser.

Mulai Latihan →