AWS
Amazon Web Services
AWS (Amazon Web Services) adalah platform cloud milik Amazon yang jadi pilihan utama untuk membangun data stack modern, dari storage di S3 sampai data warehouse di Redshift. Kalau ngomongin cloud di dunia data, AWS hampir selalu jadi referensi pertama.
Apa itu AWS?
AWS (Amazon Web Services) adalah platform cloud milik Amazon yang menyediakan ratusan layanan komputasi, penyimpanan, database, analitik, dan machine learning melalui internet. Diluncurkan pertama kali tahun 2006, AWS sekarang jadi market leader cloud computing global dengan pangsa pasar sekitar 31%.
Buat data practitioner, AWS bukan sekadar tempat naruh file. AWS adalah ekosistem lengkap untuk membangun data pipeline dari ujung ke ujung - mulai dari ingestion, storage, processing, sampai visualisasi dan machine learning.
Layanan AWS yang Wajib Data Practitioner Tau
Storage: Amazon S3 (Simple Storage Service) adalah object storage untuk menyimpan raw data, hasil proses, file CSV, Parquet, JSON, apapun formatnya. Ini "gudang data" utama di hampir semua data stack modern. Amazon EBS menyediakan block storage untuk kebutuhan database on-instance.
Compute: Amazon EC2 menyediakan virtual machine yang bisa dikonfigurasi sesuai kebutuhan - bisa dipakai untuk running Spark, Airflow, atau custom ML training. AWS Lambda menyediakan serverless compute untuk menjalankan kode tanpa perlu manage server.
Database dan Analitik: Amazon RDS adalah managed relational database yang mendukung PostgreSQL, MySQL, dan database lainnya. Amazon Redshift adalah data warehouse berbasis columnar storage yang dirancang untuk analitik skala besar. Amazon Athena adalah query engine serverless yang bisa langsung query data di S3 menggunakan SQL standar - bayar per data yang diproses, bukan per jam cluster berjalan.
Data Integration: AWS Glue adalah managed ETL service plus Data Catalog untuk katalog metadata. Amazon Kinesis menangani streaming data untuk real-time analytics.
Machine Learning: Amazon SageMaker adalah platform end-to-end untuk build, train, dan deploy model ML.
AWS vs GCP vs Azure untuk Data Stack
| Dimensi | AWS | GCP | Azure |
|---|---|---|---|
| Market share global | ~31% (tertinggi) | ~12% | ~23% |
| Data warehouse utama | Redshift | BigQuery | Synapse Analytics |
| Serverless SQL analytics | Athena | BigQuery | Synapse Serverless |
| Managed Spark | EMR | Dataproc | Azure Databricks |
| Managed ETL | Glue | Cloud Composer | Data Factory |
| ML platform | SageMaker | Vertex AI | Azure ML |
| Cocok untuk | Startup hingga enterprise | Tim analytics-heavy | Enterprise Microsoft |
Kenapa AWS Jadi Pilihan Banyak Tim Data?
AWS populer karena dua alasan utama: ekosistem yang paling matang dan dokumentasi yang paling lengkap. Kalau kamu cari tutorial, Stack Overflow answer, atau library third-party, AWS hampir selalu punya support terluas.
Selain itu, banyak tool populer di data engineering - Apache Airflow via MWAA, dbt via managed services, Tableau, Looker - punya native integration ke layanan AWS. Ini bikin adoption lebih mudah tanpa harus banyak setup custom.
Tapi bukan berarti AWS selalu pilihan terbaik. Biaya bisa mengejutkan kalau nggak di-monitor, dan beberapa layanan punya biaya tersembunyi dari data transfer antar region atau ke internet (egress cost).
Cara Mulai Belajar AWS untuk Data
AWS punya tier gratis (AWS Free Tier) yang cukup untuk eksperimen awal. S3 memberikan 5GB storage gratis, dan kombinasi S3 + Athena adalah cara paling natural untuk merasakan modern data stack tanpa biaya besar di awal. Mulai dari sana, kamu bisa eksplor Glue untuk ETL, lalu Redshift kalau butuh data warehouse yang lebih powerful untuk analitik skala besar.
Udah paham AWS? Lanjut latihan SQL dan Excel yuk!
Latihan interaktif, langsung di browser.