Sekilas Mengenai Penambangan Data(?)

Jika membahas tentang AI maka kita tidak akan jauh dari pembahasan terminologi-terminologi seperti ML, Data Mining, Pattern Recognition, Probability and Statistics (Probstat), Information Theory, Numerical Optimization, Computational Complexity Theory, dan Control Theory Adaptive. Salah satu yang akan dibahas pada postingan kali ini yaitu mengenai data mining (penambangan data?).Apa itu data mining? Sekarang bayangkan Anda sedang berada di sebuah pertambangan emas tradisional. Di pertambangan emas tradisional, para “petani emas” hanya bermodalkan ayakan untuk mengayak material-material yang terbawa aliran sungai; berharap menemukan emas ketika mengayak walaupun jumlah dan kadarnya kecil sekali (karena emas yang ditemukan masih dalam keadaan “kotor”). Selain emas, ketika mereka mengayak mungkin mereka bisa menemukan material ataupun benda lain selain emas, seperti kerikil, ranting, tali, bahkan sendal(?) yang mungkin terbawa aliran sungai. Akan tetapi, mereka semua akan membuang semua material ataupun benda selain emas tersebut. Emas-emas hail ayakan tersebut kemudian akan dibawa ke pengumpul untuk dibawa ke tempat pengelolaan yang dapat mengelolanya menjadi emas murni dengan kadar yang tinggi.

Sekarang bayangkan aliran sungai tersebut adalah suatu aliran data dalam jumlah yang besar dan masif. Dari aliran data tersebut, kita hanya mengambil sebagian kecil data yang kita butuhkan (dalam kasus di atas adalah emasnya) dan membuang semua yang  tidak kita  perlukan. Data yang terseleksi tersebut kemudian diolah dan diekstraksi (dalam kasus di atas berarti emasnya dibawa ke tempat pengelolaan emas) sehingga menghasilkan suatu informasi yang penting dan bermanfaat (emas!). Itulah data mining!

Jadi, apa itu data mining? Singkatnya, data mining merupakan suatu kegiatan ekstraksi informasi (atau knowledge) dari sekumpulan data dalam jumlah yang besar dan masif. Proses data mining sangat penting dalam ML karena: 1) Jumlah data besar dan masif; 2) Tidak semua data “mentah” tersebut dibutuhkan dan mampu menghasilkan informasi yang bermakna. Bayangkan jika data yang digunakan untuk melatih mesin kita adalah data-data  yang “kotor” maka tentu mesin kita juga tidak akan pernah “cerdas”.

Kegiatan data mining banyak dilakukan oleh perusahaan-perusahaan besar. Salah satu perusahaan yang banyak memanfaatkan data mining adalah mesin pencari Google. Untuk tingkat yang lebih sederhana, data mining sangat bermanfaat dalam pembuatan ataupun pengambilan suatu keputusan (decision making).

 

Bagaimana Data Mining Bekerja?

Untuk memahami bagaimana suatu data mining bekerja perhatikanlah diagram berikut.

P_20181018_180006_p.jpg

Proses data mining dimulai dari data mentah (raw data). Dari data mentah tersebut kemudian kita memilih dan menyeleksi data mana yang akan diproses lebih lanjut. Setelah itu, data kemudian masuk ke dalam tahap preprocessing kemudian ditransformasikan. Transformasi data ini kita bisa ibaratkan sama dengan feature extraction dalam ML. Terakhir, kumpulan data feature extraction kemudian akan ditambang hingga menemukan suatu pola ataupun model yang pada akhirnya kemudian diinterpretasikan menghasilkan suatu informasi atau pengetahuan baru (knowledge).

Leave a comment