Big Data
Kumpulan dataset yang sangat besar dan kompleks sehingga tidak dapat diproses dengan tools database konvensional, dicirikan oleh Volume, Velocity, dan Variety.
Big Data merujuk pada dataset yang memiliki karakteristik unik yang membuat tools tradisional kewalahan dalam menyimpan, memproses, dan menganalisisnya.
5V Big Data
Volume
Ukuran data yang sangat besar:
- Mulai dari terabyte (TB) hingga petabyte (PB) atau lebih
- Contoh: 2.5 exabyte data baru dibuat setiap hari
Velocity
Kecepatan data masuk dan diproses:
- Streaming: data masuk dan perlu diproses dalam milidetik
- Contoh: Feed media sosial, sensor IoT, transaksi real-time
Variety
Beragamnya tipe dan format data:
- Structured: data tabular dari database
- Semi-structured: JSON, XML, logs
- Unstructured: teks, gambar, video, audio
Veracity
Kualitas dan keandalan data:
- Data tidak selalu bersih atau akurat
- Perlu validasi dan quality management
Value
Nilai bisnis yang dapat diekstrak:
- Data banyak belum tentu bernilai
- Harus ada proses untuk mengubah data menjadi insight
Ekosistem Big Data
- Storage: HDFS, S3, Azure Data Lake
- Processing: Apache Spark, Hadoop MapReduce, Flink
- Query: Hive, Presto/Trino, BigQuery
- Streaming: Kafka, Kinesis, Flink
Lanjut Latihan
Mulai Latihan →Udah paham Big Data? Lanjut latihan SQL dan Excel yuk!
Latihan interaktif, langsung di browser.