Repositori penyimpanan terpusat yang menyimpan data dalam format mentah (raw) dari berbagai sumber, baik terstruktur maupun tidak terstruktur.

Data Lake adalah sistem penyimpanan yang dirancang untuk menyimpan data dalam jumlah besar dalam format aslinya (raw format) tanpa perlu transformasi terlebih dahulu.

Karakteristik Data Lake

Data Lake menyimpan semua jenis data:

  • Structured: Data tabular dari database
  • Semi-structured: JSON, XML, log files
  • Unstructured: Gambar, video, dokumen

Perbedaan Data Lake vs Data Warehouse

AspekData LakeData Warehouse
Format DataRaw/mentahTerstruktur
SchemaSchema-on-readSchema-on-write
FleksibilitasTinggiRendah
Query SpeedLebih lambatLebih cepat
Use CaseEksplorasi, MLBI, Reporting
CostLebih murahLebih mahal

Kapan Menggunakan Data Lake?

  1. Saat belum tahu bagaimana data akan digunakan
  2. Untuk machine learning dan data science
  3. Menyimpan data IoT dan streaming
  4. Archiving data untuk compliance
Lanjut Latihan

Udah paham Data Lake? Lanjut latihan SQL dan Excel yuk!

Latihan interaktif, langsung di browser.

Mulai Latihan →