DATAFRAME DALAM SPARK

Tantangan Menulis Hari ke-127

Oleh: Bernardus Ari Kuncoro

Dalam Spark, struktur data yang utama disebut sebagai RDD atau Resilient Distributed Dataset. RDD ini merupakan obyek yang paling bawah (low level) sedemikian sehingga Spark dapat bekerja memecah-mecahkan data ke setiap node dalam sebuah kluster. Namun, pengerjaan langsung dengan RDD ini termasuk ribet alias sulit, sehingga Spark DataFrame disarankan untuk dipelajari. Spark DataFrame ini dibuat di atas RDD.

Spark DatafFrame ini dirancang untuk memiliki perilaku yang mirip dengan tabel SQL. Tidak hanya mudah untuk dipahami, DataFrame secara operasi juga dapat dioptimasi ketimbang menggunakan RDD secara langsung.

Untuk mulai ngulik Spark DataFrame, Anda harus membuat sebuah obyek SparkSession dari SparkContext. SparkContext sebagai koneksi Anda ke kluster. Sedangkan SparkSession ini adalah interface Anda dengan koneksi tersebut. Ibarat kata Anda sedang menangani beragam kamera yang terpasang di seluruh kota, dan Anda berada di sebuah ruang kendali. Kabel-kabel yang terhubung ke CCTV dapat Anda analogikan sebagai SparkContext. Sedangkan ruang kendali yang sedang menyala adalah SparkSession.

Disadur dan diterjemahkan dari Kursus Daring Datacamp: Introduction to Pyspark

Kalideres, 4 Agustus 2021

Wanna support me?

Follow by Email
LinkedIn
Share