Data Pipeline
Serangkaian proses otomatis yang memindahkan dan mengubah data dari sumber ke tujuan secara terstruktur dan terjadwal.
Data Pipeline adalah serangkaian langkah otomatis yang mengalirkan data dari satu sistem ke sistem lain, seringkali dengan transformasi di tengah perjalanan.
Anatomi Data Pipeline
Source → Ingest → Transform → Store → Serve
(DB/API) → (Extract) → (Clean/Enrich) → (DWH/Lake) → (BI/ML)
1. Source (Sumber Data)
- Database transaksional (PostgreSQL, MySQL)
- APIs (REST, GraphQL)
- File (CSV, JSON, Parquet)
- Message queue (Kafka, RabbitMQ)
- SaaS applications (Salesforce, HubSpot)
2. Ingest (Pengambilan)
- Full load: ambil semua data setiap kali
- Incremental load: hanya data baru/berubah
- Change Data Capture (CDC): tangkap perubahan real-time
3. Transform (Transformasi)
- Cleaning: hapus duplikat, fix format
- Enrichment: gabungkan dengan data referensi
- Aggregation: ringkasan untuk analisis
4. Store (Penyimpanan)
- Data Warehouse: untuk analisis terstruktur
- Data Lake: untuk semua tipe data raw
- Data Mart: subset untuk departemen tertentu
Batch vs Streaming Pipeline
| Aspek | Batch Pipeline | Streaming Pipeline |
|---|---|---|
| Timing | Terjadwal (hourly, daily) | Real-time / near real-time |
| Latency | Menit sampai jam | Milidetik sampai detik |
| Kompleksitas | Lebih sederhana | Lebih kompleks |
| Tools | Airflow, dbt | Kafka, Flink, Spark Streaming |
| Use case | Reporting, DWH | Fraud detection, live dashboard |
Istilah Terkait
ETL
Data ProcessingProses integrasi data yang terdiri dari Extract (mengambil data), Transform (membersihkan dan mengubah format), dan Load (memasukkan ke sistem tujuan).
ELT
Data ProcessingVarian modern ETL di mana data diekstrak dan langsung dimuat ke tujuan, baru kemudian ditransformasi menggunakan kekuatan komputasi cloud data warehouse.
CDC
Data ProcessingTeknik real-time untuk mendeteksi dan merekam perubahan data di database sumber (INSERT, UPDATE, DELETE) untuk disinkronkan ke sistem tujuan.
Batch Processing
Data ProcessingPemrosesan data dalam kumpulan besar (batch) pada waktu tertentu - biasanya terjadwal malam atau minggu - bukan secara real-time saat data masuk.
Stream Processing
Data ProcessingPemrosesan data secara real-time saat data masuk - setiap event diproses dalam milidetik hingga detik, tanpa menunggu data dikumpulkan dalam batch.
Udah paham Data Pipeline? Lanjut latihan SQL dan Excel yuk!
Latihan interaktif, langsung di browser.