Matematika dalam Sains Data
Sains data atau data science adalah salah satu bidang keilmuan yang sedang naik daun beberapa tahun belakangan. Orang-orang dari berbagai kalangan dan latar belakangan berbondong-bondong mempelajari bidang ini baik yang memiliki background STEM maupun yang tidak. Dengan kemajuan teknologi juga membantu orang-orang bisa bereksplorasi di bidang ini karena sudah banyak penyedia website online course khusus bidang ini. Namun sebenarnya apa itu sains data? Apa saja ilmu yang terdapat di dalamnya?
Berdasarkan sumber dari wikipedia, “Data science is an interdisciplinary field that uses scientific methods, processes, algorithms and systems to extract knowledge and insights from structured and unstructured data, and apply knowledge and actionable insights from data across a broad range of application domains. Data science is related to data mining, machine learning and big data.” Di mana yang berarti sains data adalah ilmu yang menggunakan beberapa bidang seperti pemrograman, matematika, ilmu bisnis, statistika, dan lainnya untuk memecahkan masalah menggunakan data yang tersedia. Maka bisa dilihat bahwa matematika adalah salah satu aspek yang penting dalam bidang sains data ini.
Dalam sains data, matematika digunakan untuk eksplorasi data atau biasa disebut exploratory data analysis (EDA), yaitu proses untuk melihat gambaran data secara menyeluruh. Pada proses ini akan dilihat statistik dari data yang ada, seperti rata-rata, median, modus, penyebaran data, distribusi data, dan lainnya. Kita mungkin tidak perlu melakukan perhitungan manual menggunakan kalkulator atau menggunakan kertas coretan untuk menghitungnya karena sudah bisa dilakukan oleh komputer, namun kita perlu mengetahui apa insight yang bisa kita ambil dari data statistik tersebut, apa manfaat dari nilai rata-rata pada sebuah variabel, apa keputusan yang bisa diambil dengan mengetahui modus dari suatu data kategorikal, dan masih banyak lagi. Maka dari itu matematika penting pada bidang sains data.
Selain itu, matematika juga digunakan pada proses machine learning untuk melakukan suatu prediksi, klasifikasi, atau clustering. Pada tahap ini kita perlu untuk menggunakan berbagai algoritma machine learning seperti linear regression, random forest, k-nearest neighbor, dan masih banyak lagi. Misal kita menggunakan bahasa pemrograman python, hal ini bisa dilakukan dengan mudah karena kita bisa langsung memanggil atau meng-import modul yang akan digunakan, namun jika hanya meng-import modul tersebut, apa kita tahu perhitungan yang ada di dalamnya? Berikut adalah rumus matematika dari beberapa algoritma machine learning
Sebagai data scientist yang baik, kita tentu tidak boleh hanya meng-import modul yang sudah ada, namun kita juga harus memahami perhitungan apa yang terjadi di dalamnya, agar kita bisa melakukan perhitungan yang lebih dalam seperti menentukan variabel yang akan digunakan, melakukan tuning parameter, menyesuaikan dengan keadaan atau data yang ada, dan lainnya.
Dari contoh beberapa rumus algoritma machine learning di paragraf atas, untuk memahami formula tersebut tentu kita harus memahami dasar-dasar matematika terlebih dahulu, mulai dari aljabar linear sederhana, statistik, bahkan hingga kalkulus. Maka dapat disimpulkan bahwa untuk mendalami sains data, kita juga harus mau memahami matematika terlebih dahulu, karena itu adalah salah satu komponen utama pada bidang ini.