Data Lake
Repositori penyimpanan terpusat yang menyimpan data dalam format mentah (raw) dari berbagai sumber, baik terstruktur maupun tidak terstruktur.
Data Lake adalah sistem penyimpanan yang dirancang untuk menyimpan data dalam jumlah besar dalam format aslinya (raw format) tanpa perlu transformasi terlebih dahulu.
Karakteristik Data Lake
Data Lake menyimpan semua jenis data:
- Structured: Data tabular dari database
- Semi-structured: JSON, XML, log files
- Unstructured: Gambar, video, dokumen
Perbedaan Data Lake vs Data Warehouse
| Aspek | Data Lake | Data Warehouse |
|---|---|---|
| Format Data | Raw/mentah | Terstruktur |
| Schema | Schema-on-read | Schema-on-write |
| Fleksibilitas | Tinggi | Rendah |
| Query Speed | Lebih lambat | Lebih cepat |
| Use Case | Eksplorasi, ML | BI, Reporting |
| Cost | Lebih murah | Lebih mahal |
Kapan Menggunakan Data Lake?
- Saat belum tahu bagaimana data akan digunakan
- Untuk machine learning dan data science
- Menyimpan data IoT dan streaming
- Archiving data untuk compliance
Istilah Terkait
Data Warehouse
Database & StorageSistem penyimpanan data terpusat yang dirancang khusus untuk analisis dan pelaporan bisnis, mengintegrasikan data dari berbagai sumber.
Database
Database & StorageKumpulan data terorganisir yang disimpan secara elektronik dan dapat diakses, dikelola, serta diperbarui dengan mudah.
Data Mart
Database & StorageSubset dari Data Warehouse yang difokuskan untuk kebutuhan analitik satu departemen atau fungsi bisnis tertentu, seperti Sales Mart atau Finance Mart.
Data Lakehouse
Database & StorageArsitektur data modern yang menggabungkan fleksibilitas Data Lake (menyimpan semua tipe data) dengan kemampuan analitik Data Warehouse (ACID, performa query tinggi).
Udah paham Data Lake? Lanjut latihan SQL dan Excel yuk!
Latihan interaktif, langsung di browser.