Apa Itu Big Data?

Saat ini teknologi semakin canggih yang dimana mempermudah seseorang dalam menyelesaikan pekerjaan tugasnya salah satunya adalah cepatnya dalam mendapatkan informasi. Contohnya, Google salah satu pusat pencarian yang banyak dipakai mayoritas orang di bumi. Namun, pernahkah kalian berpikir bagaimana caranya Google bisa melakukan pencarian tersebut yang mungkin bisa diakses oleh jutaan orang ataupun lebih? Bagaimana cara melakukannya? Hal tersebut bisa dilakukan dengan metode Big Data.

Big Data adalah kumpulan data yang lebih besar dan lebih kompleks, terutama dari sumber data baru. Set data ini sangat banyak sehingga software pemrosesan data tradisional tidak dapat mengelolanya. Namun, sejumlah besar data ini dapat digunakan untuk mengatasi masalah bisnis yang sebelumnya tidak dapat kamu tangani.

Big Data dimulai pada tahun 2000-an dimana terdapat seorang analisis, Doug Laney, menyampakaikan terdapat 3 karakteristik Big Data, yaitu: 

  1. Volume : Ukuran data penting agar bisa memproses data-data yang berjumlah cukup besar.
  2. Velocity : Kecepatan juga menjadi salah satu faktor penting untuk mencari sebuah data. Pada data yang berjumlah besar dibutuhkan kecepatan menerima data yang mungkin bisa di pakai
  3. Variety :  Dengan memegang banyak sekali data, kita dapat mengetahui bahwa terdapat banyak jenis data mulai dari yang sudah terstrukur, semi-terstrukur dan yang belum terstruktur. Pada data yang belum terstruktur diperlukan waktu agar data dapat di proses.
  4. Value : Data-data tersebut tentu harus memiliki nilai informasi. Jikalau data tersebut hanya disimpan dan tidak ada informasi penting sama saja dengan menghabiskan kuota penyimpanan data.
  5. Veracity : Tingkat akurasi ini diperlukan dalam pengolahan data yang besar agar mendapat data yang sesuai dengan apa yang kita cari.

Terdapat beberapa rekomendasi aplikasi yang bisa kita pakai melakukan Big Data yaitu :

  1. Apache Hadoop adalah kerangka kerja yang memungkinkan pemrosesan terdistribusi dari kumpulan data besar pada seluruh kelompok komputer menggunakan model pemrograman sederhana dengan model pemrograman MapReduce.
  2. MongoDB merupakan salah satu database generasi selanjutnya yang membantu dalam perubahan bisnis dengan menggunakan konsep NoSQL terbuka.
  3. Pentaho merupakan solusi yang komprehensif yang mendukung selutuh siklus Big Data dalam perusahaan.
  4. Cassandra merupakan salah satu produk open source untuk memanajemen database yang didstribusikan oleh Apache. Produk ini yang digunakan dapat diukur (scalable) dan dirancang untuk mengelola data yang sangat besar yang tersebar dibanyak server.
  5. Rapidminer  merupakan salah satu platform perangkat lunak (software) yang berkembang pada tahun 2001 untuk tim sains Big Data yang menyatukan persiapan data, pembelajaran mesin, dan penerapan model prediktif.

Untuk data scientist bisa kita pakai beberapa aplikasi tersebut :

  1. Microsoft Excel adalah aplikasi pengolah data yang menggunakan spreadsheet untuk manajemen data dan perintah.
  2. SAS (Statistical Analysis System) adalah software yang telah sebagian besar negara gunakan untuk melakukan analisis statistika dan perencanaan keuangan.
  3. Apache Spark adalah perangkat lunak analisis terpadu super cepat untuk memproses data dalam skala besar meliputi Big Data dan machine learning.
  4. Tableau adalah alat visualisasi data luar biasa yang baru-baru ini diakuisisi oleh Salesforce, salah satu CRM perusahaan terkemuka di dunia.

Potensi Big Data terus mengalami perkembangan hingga menjadi salah satu pekerjaan yang ‘menjanjikan’ untuk masa depan, terlebih dengan teknologi yang sudah menjadi bagian dari sehari-hari maka akan semakin banyak informasi data-data yang di terima dan harus diolah balik. Sehingga kebutuhan perusahaan-perusahaan akan mencari bagi yang sudah menguasai Big Data dan tentu saja untuk sekarang jumlah yang menguasai Big Data sangat sedikit dibanding dengan jumlah kebutuhan dalam profesi ini.

Raven Kongnando Lasher