Question 1

Apa itu Apache Spark?

Accepted Answer

Framework komputasi terdistribusi open-source yang memungkinkan pemrosesan data skala besar secara in-memory, jauh lebih cepat dari Hadoop MapReduce, dengan dukungan batch, streaming, ML, dan SQL.

Question 2

Kapan Apache Spark digunakan?

Accepted Answer

Pemrosesan batch data besar - log analysis, ETL pipeline untuk petabyte data. Real-time streaming - analisis event stream dari Kafka atau Kinesis. Machine learning terdistribusi dengan MLlib untuk dataset yang tidak muat di satu mesin. Interactive SQL analytics pada data lake menggunakan Spark SQL. Graph analytics untuk social network atau fraud detection

Question 3

Apa kesalahpahaman umum tentang Apache Spark?

Accepted Answer

Spark tidak selalu lebih cepat - untuk data kecil (< GB), overhead Spark justru lebih lambat dari Pandas. In-memory bukan berarti data harus muat di RAM satu mesin - data terdistribusi di RAM ribuan node. PySpark bukan Python biasa - ada overhead serialisasi; untuk performa optimal gunakan Spark native functions, bukan Python UDF

Aspek	Apache Spark	Hadoop MapReduce
Kecepatan	10-100x lebih cepat	Relatif lambat
Storage sementara	RAM (in-memory)	Disk (HDFS)
Model pemrograman	RDD, DataFrame, Dataset	Map dan Reduce
Dukungan use case	Batch, streaming, ML, SQL	Batch only
Bahasa	Python, Scala, Java, R	Java primarily
Fault tolerance	Ya (RDD lineage)	Ya (replication)

Apache Spark

Spark vs Hadoop MapReduce

Komponen Ekosistem Spark

Abstraksi Data di Spark

RDD (Resilient Distributed Dataset)

DataFrame

Dataset

Arsitektur Spark

Istilah Terkait

Stream Processing

Apache Kafka