Tantangan Menulis Hari ke-125
Oleh: Bernardus Ari Kuncoro
BAYANGKAN ANDA DIMINTA ATASAN UNTUK BEKERJA DENGAN DATA YANG SANGAT BESAR. Seberapa besar? Misal berukuran 2TB. Sementara laptop Anda tidak bisa menampungnya. Apa yang akan Anda lakukan? Beli HDD eksternal? Pinjam laptop temen Anda?
Secara konsep, benar bahwa solusinya adalah dengan memasukkan dataset tersebut ke dalam sebuah platform yang memiliki kapasitas penyimpanan lebih besar dari 2TB.
Namun, akan jadi soal, karena platform tersebut tidak hanya sekadar mampu menyimpan, tetapi bisa mengolah data tersebut. Lantas, platform seperti apakah itu? Well, Spark merupakan salah satu jawabannya.
Spark, atau biasa dikenal dengan Apache Spark ini merupakan sebuah platform untuk menjalankan cluster computing.
Dengan adanya Spark, Anda dapat menyebarkan data dan komputasi ke kluster-kluster yang di dalamnya terdapat sejumlah node. Node bisa Anda artikan sebagai komputer tersendiri. Ibarat sebuah perumahan berkluster, maka rumah-rumah di masing-masing kluster itu merupakan komputer atau node.
Mengapa perlu menyebarkan dataset yang besar ke kluster? Memisah-misahkan data ke kluster akan memudahkan pekerjaan Anda, karena setiap node akan bekerja pada data yang sangat kecil.
Mengingat masing-masing node ini memiliki bagian dari data yang disebar tadi, maka akan akan ada kegiatan kalkulasi data yang mesti diselesaikan. Tugas-tugas tersebut diproses dan dikomputasi secara paralel di setiap node dalam sebuah kluster. Fakta ini disebut sebagai komputasi paralel.
(BERSAMBUNG)
Kalideres, 2 Agustus 2021