Kumpulan dataset yang sangat besar dan kompleks sehingga tidak dapat diproses dengan tools database konvensional, dicirikan oleh Volume, Velocity, dan Variety.

Big Data merujuk pada dataset yang memiliki karakteristik unik yang membuat tools tradisional kewalahan dalam menyimpan, memproses, dan menganalisisnya.

5V Big Data

Volume

Ukuran data yang sangat besar:

  • Mulai dari terabyte (TB) hingga petabyte (PB) atau lebih
  • Contoh: 2.5 exabyte data baru dibuat setiap hari

Velocity

Kecepatan data masuk dan diproses:

  • Streaming: data masuk dan perlu diproses dalam milidetik
  • Contoh: Feed media sosial, sensor IoT, transaksi real-time

Variety

Beragamnya tipe dan format data:

  • Structured: data tabular dari database
  • Semi-structured: JSON, XML, logs
  • Unstructured: teks, gambar, video, audio

Veracity

Kualitas dan keandalan data:

  • Data tidak selalu bersih atau akurat
  • Perlu validasi dan quality management

Value

Nilai bisnis yang dapat diekstrak:

  • Data banyak belum tentu bernilai
  • Harus ada proses untuk mengubah data menjadi insight

Ekosistem Big Data

  • Storage: HDFS, S3, Azure Data Lake
  • Processing: Apache Spark, Hadoop MapReduce, Flink
  • Query: Hive, Presto/Trino, BigQuery
  • Streaming: Kafka, Kinesis, Flink
Lanjut Latihan

Udah paham Big Data? Lanjut latihan SQL dan Excel yuk!

Latihan interaktif, langsung di browser.

Mulai Latihan →