APA BEDA ANTARA STRUCTURED DAN UNSTRUCTURED DATA?

Tantangan Menulis Hari Ke-49 Batch Kedua

Oleh Bernardus Ari Kuncoro

Dalam sebuah kesempatan mewawancarai kandidat data engineer, saya mencoba menanyakan pertanyaan ini. Beda antara data yang terstruktur dan yang tidak terstruktur.

Dengan mengetahui jawabannya dengan benar atau salah, pasti langsung ketahuan dia pernah pegang database untuk OLAP Big Data atau belum. Yuk, kita pelajari sebentar, bedanya apa sih.

Structured big data dapat disimpan di dalam database tradisional. Seperti apa? OracleDB, MySQL, PostgreSQL, SQL Server, dll. Dapat disimpan dalam bentuk baris dan kolom. Sebagian besar transaksi dari aplikasi adalah data yang terstruktur. Data dengan bentuk ini akan sangat mudah didefinisikan dalam sebuah data model.

Unstructured data tidak dapat disimpan dalam rupa kolom dan baris. Sedemikian sehingga sistem database tradisional tidak dapat menyimpannya. Secara umum, memiliki ukuran dan konten yang sangat bervariasi. Beberapa contoh data tidak terstruktur adalah file logs, cuitan Twitter, Facebook likes, gambar, video, pencarian di mesin Google. Sebagian besar data dari Internet of Things adalah data yang tidak terstruktur. Sangat sulit untuk mendefinisikan data tidak terstruktur ini ke dalam data model. Beberapa tool yang mendukung data tidak terstruktur ini adalah MongoDB, Cassandra, GeoJS, dll. Seperti yang pernah saya tulis di sini tentang NoSQL.

Kalau ada kandidat yang mencampuradukkan antara structured data dengan data input supervised learning, yang katanya didefinisikan sebagai data yang ada label. Yo wes, salah kaprah!

Berdasarkan kisah nyata.

Kalideres, 18 Mei 2021.

Referensi:

Buku Top 200 Data Engineer Interview Questions Answers

Wanna support me?

Follow by Email
LinkedIn
Share