Data Mining: Pengertian, Teknik, Skill dan Pengaplikasiannya

Perusahaan teknologi besar seperti Google, Facebook, dan Twitter melakukan data mining, mengelola data tersebut lalu menggunakannya untuk pengembangan algoritma AI canggih mereka.

Sasaran mereka mungkin murni berdasarkan keuntungan dan komersial, tetapi manfaat yang diperoleh pengguna dari mereka dalam hal pengalaman dan kemudahan telah meningkatkan bisnis mereka pada keuntungan yang eksponensial.

Baik bisnis yang ingin mengidentifikasi segmen pelanggan sasarannya, meningkatkan penjualannya, memasuki pasar baru, atau mengubah strategi bisnisnya, data adalah hal yang sangat penting.

Secara alami, mengekstraksi informasi dan memperoleh wawasan data yang berharga adalah tahap penting dalam keputusan bisnis apa pun. Di sinilah data mining masuk ke dalam proses bisnis.

Apa Itu Data Mining?

Data mining atau penambangan data adalah proses menemukan anomali, pola, dan korelasi dalam raw data atau data mentah dalam skala besar dan diekstrak menjadi informasi yang berguna.

Di dunia saat ini, data ada di mana-mana. Itu terus-menerus dihasilkan dari tugas-tugas yang sederhana seperti contohnya klik di situs web. Dengan data mining, bisnis dapat:

  • Mengumpulkan potongan data mentah menjadi wawasan yang dapat ditindaklanjuti,
  • Menemukan pola dan tren tersembunyi,
  • Membuat model prediktif untuk memperkirakan peristiwa penting seperti churn pelanggan,
  • Mengotomatiskan sistem analitik dan memangkas biaya pada kemampuan manusia, dan
  • Memperluas dirinya ke dalam industri Automation and Artificial Intelligence (AI)

Karena tujuan utamanya adalah untuk menemukan dan menggali pengetahuan yang tersembunyi, data mining juga disebut Knowledge Discovery in Data (KDD).

Contohnya Instagram – raksasa media sosial ini melacak aktivitas online penggunanya untuk menyesuaikan umpan mereka dengan konten yang mirip dengan apa yang mereka suka, simpan, dan interaksi dengannya.

Setiap interaksi di Instagram membuat entri ke database besar yang dikelola organisasi, mendorong algoritma Artificial Intelligence untuk memprediksi perilaku pelanggannya. Strategi yang sering digunakan ini adalah inti dari data mining.

Bagaimana Data Mining Bekerja?

Data mining bukan hanya pembuatan model – ini melibatkan urutan langkah-langkah dari menentukan masalah, mengumpulkan dan memproses data sebelumnya, membangun dan mengevaluasi model otomatis, hingga penerapan pengetahuan.

Ada pepatah lama dalam Ilmu Komputer, ““Garbage in, Garbage out” atau ‘GIGO’. Ini berarti bahwa input data yang tidak masuk akal atau cacat menghasilkan keluaran yang tidak masuk akal yang disebut ‘garbage atau sampah’.

Saat bisnis melakukan data mining, ia harus memastikan bahwa data melewati serangkaian tahapan yang ditentukan dengan baik untuk menghasilkan hasil yang bermakna dan dapat ditindaklanjuti.

Proses Standar Lintas Industri untuk Data Mining (CRISP-DM)

Proses Standar Lintas-Industri untuk Data Mining atau Cross-Industry Standard Process For Data Mining (CRISP-DM) adalah model  standar yang secara sistematis menentukan langkah-langkah utama dalam setiap proyek data mining. Model tersebut melibatkan langkah-langkah berikut:

1. Pemahaman Bisnis

Fase pertama dalam proyek data mining dimulai dengan definisi pernyataan masalah. Setelah tujuan ditentukan, tim proyek kemudian menilai potensi risiko, biaya, dan teknologi yang diperlukan proyek. Akhirnya, rencana proyek lengkap dikembangkan yang merinci operasi di setiap fase.

2. Pemahaman Data

Tim mengumpulkan data mentah dan menilai kualitasnya (apakah datanya baik atau tidak).

3. Persiapan Data

Data disiapkan untuk pemodelan. Data mentah tidak baik atau diformat dan mungkin memiliki kesalahan kritis yang menghasilkan wawasan yang salah.

Misalnya, nilai kosong atau nol dalam entri database dapat menyebabkan potensi kesalahan dan harus dihapus. Dalam fase ini, data dibersihkan dan diproses sebelumnya untuk model inti.

4. Pemodelan

Tim proyek mengembangkan model yang paling sesuai untuk data yang diproses sebelumnya. Pemodelan bergantung pada beberapa kriteria, termasuk masalah bisnis, data yang dimasukkan, efisiensi algoritme, persyaratan sistem, dll.

Pada intinya, model mengandalkan teknik penambangan data seperti Klasifikasi, Pengelompokan, Regresi, dll.

5. Evaluasi

Selanjutnya, tim mengevaluasi proyek terhadap serangkaian tujuan yang ditentukan dan memastikan, apakah sudah siap produksi atau tidak.

6. Penerapan

Akhirnya, model diterapkan dan dapat diakses oleh pelanggan. Menurut panduan CRISP-DM, hal ini bergantung pada persyaratannya, fase penerapan dapat sesederhana membuat laporan atau serumit penerapan proses penambangan data berulang di seluruh perusahaan.

data mining 2

Teknik untuk Melakukan Data Mining

Teknik data mining berbeda-beda untuk setiap masalah dan tujuan bisnis. Setiap bisnis mengadopsi teknik penambangan data yang berbeda untuk memecahkan masalah yang berbeda.

Ambil contoh Amazon. Sistem rekomendasinya yang kuat mengumpulkan data pelanggannya untuk merekomendasikan produk berdasarkan minat mereka, pembelian sebelumnya, dll.

Secara bersamaan, Amazon memantau riwayat pembelian pelanggan dan aktivitas pengembalian untuk mendeteksi pembelian yang curang. Ini menunjukkan bahwa berdasarkan masalah bisnis yang berbeda (atau kasus penggunaan), data yang sama dapat digunakan untuk tujuan yang berbeda.

Untuk memenuhi kebutuhan spesifik bisnis, beberapa teknik data mining telah dikembangkan:

1. Aturan Asosiasi

Aturan Asosiasi atau Association Rule adalah dengan menemukan asosiasi dan hubungannya di antara item data. Ini terdiri dari pernyataan if / then sederhana.

Berikut adalah contoh aturan asosiasi, “jika pelanggan membeli ponsel, mereka 60% cenderung membeli penutup ponsel”. Pengecer sering menggunakan aturan ini dalam Analisis Keranjang Pasar untuk melihat apakah jenis barang tertentu dibeli bersama.

2. Klasifikasi

Klasifikasi membedakan data menjadi kelas-kelas yang telah ditentukan sebelumnya. Teknik ini bekerja berdasarkan prinsip ‘belajar dari sejarah’; yaitu, model klasifikasi pertama-tama belajar dari data yang sudah diklasifikasikan (tahap pelatihan) dan mengklasifikasikan sampel yang tidak diketahui ke dalam kelas (tahap validasi / pengujian).

Misalnya, menentukan churn pelanggan adalah masalah klasifikasi dengan dua kelas yang mungkin – Churn / Not Churn.

3. Pengelompokan

Teknik ini adalah dengan membagi kumpulan data yang sangat besar menjadi beberapa kelompok (atau kelompok) yang berbeda berdasarkan kesamaan dalam setiap cluster.

Berbeda dengan teknik klasifikasi, pengelompokan tidak memiliki fase pelatihan dan bekerja langsung pada sampel yang tidak diketahui. Misalnya, ketika segmen pelanggan target tidak ditentukan sebelumnya, mereka dapat ditemukan menggunakan teknik pengelompokan.

4. Regresi

Teknik ini berguna untuk menemukan hubungan antar variabel (yaitu, kolom dalam database). Misalnya, departemen SDM perusahaan dapat menggunakan regresi untuk menentukan probabilitas atrisi karyawan (diberi skor antara 0 dan 1).

5. Prediksi

Prediksi digunakan untuk menemukan nilai dari pola dan tren historis. Sistem rekomendasi Netflix yang menyesuaikan umpan pengguna adalah contoh utama aplikasi prediksi data mining.

6. Outlier Detection

Teknik yang digunakan untuk menemukan distorsi, anomali, atau pencilan dalam data. Deteksi outlier digunakan dalam deteksi penipuan, deteksi kesalahan, dll.

Berikut adalah artikel menarik lainnya yang bisa Anda baca:

Apa Skill yang Diperlukan untuk Melakukan Data Mining

Sebuah proyek data mining membutuhkan serangkaian soft skill dan hard skill untuk dibuat untuk aplikasi atau penyebaran yang berhasil.

Keterampilan teknis atau hard skill memastikan bahwa alat dan teknologi digunakan dengan benar, dan itu termasuk yang berikut ini:

1. Bahasa Pemrograman

Ini termasuk perangkat lunak statistik untuk analisis data. Misalnya, R, Python, SQL, dll.

2. Software Business Intelligence

Software Business Intelligence adalah perangkat lunak bertujuan khusus yang dirancang untuk menghasilkan wawasan dari data. Mereka biasanya digunakan untuk visualisasi data dan analitik deskriptif (mendapatkan insight awal dari data) —misalnya, Tableau, PowerBI, Zoho Analytics, dll.

3. Machine Learning dan Statistik

Ini mewakili jantung dari penambangan data. Machine Learning adalah subkelas dari Kecerdasan Buatan atau AI yang mendefinisikan fungsionalitas inti model penambangan data, baik itu klasifikasi, pengelompokan, dll. Statistik tradisional sering digunakan bersama dengan Machine Learning untuk mendapatkan wawasan awal dan membuat laporan akhir.

4. Rekayasa Perangkat Lunak

Keterampilan ini digunakan dalam perencanaan proyek dan berbagai analisis sistem (misalnya, menilai apakah teknologi yang digunakan akan menjadi usang).

5. Kerangka Pemrosesan Big Data

Ketika data sangat besar (juga disebut Big Data), penambangan data tradisional dan kerangka kerja analitik tidak memberikan hasil yang diperlukan. Di sinilah bisnis memilih Kerangka Pemrosesan Data Besar. Contoh kerangka kerja pemrosesan data besar termasuk Hadoop, Spark, Storm, dll.

6. Sistem Manajemen Basis Data atau Database Management Systems (DBMS)

Ini termasuk sistem basis data relasional dan non-relasional untuk menyimpan dan mengambil kumpulan data. Contohnya termasuk sistem SQL (MySQL, Oracle) dan sistem No-SQL (MongoDB, Firebase, Cassandra).

Di antara keterampilan non-teknis yang diperlukan untuk mengembangkan proyek data mining yang sukses, berikut ini adalah yang paling signifikan:

7. Pengetahuan-Domain

Ini termasuk pengetahuan dan pengalaman industri yang membuat seseorang cocok untuk mengerjakan jenis proyek tertentu.

8. Komunikasi dan Presentasi

Membuat laporan akhir, menyajikan temuan dengan istilah yang jelas dan ringkas, dan mengkomunikasikan hasil kepada pemangku kepentingan diperlukan untuk proyek yang sukses.

Pengaplikasian Data Mining

Penambangan data diterapkan di berbagai sektor, fungsi, dan industri. Berikut ini adalah aplikasi data mining yang paling umum:

  • Deteksi Penipuan: Lembaga keuangan dan perusahaan kartu kredit sensitif terhadap transaksi penipuan seperti klaim asuransi palsu. Dengan data mining, bisnis dapat mengidentifikasi pola tersembunyi untuk mengisolasi dan menolak penipuan.
  • Segmentasi Pelanggan: Perusahaan menggunakan penambangan data untuk membagi basis pelanggan target mereka menjadi segmen (atau cluster) yang berbeda.
  • Industri Ritel: Pengecer menggunakan Analisis Keranjang Pasar untuk menemukan asosiasi di antara barang-barang yang dibeli pelanggan mereka.
  • Perawatan kesehatan: Uji coba obat dan penelitian biomedis di bidang seperti genetika banyak menggunakan sistem data mining otomatis.
  • Deteksi Intrusi: Pengawasan lalu lintas jaringan dan menandai aktivitas mencurigakan telah dicapai oleh Intrusion Detection Systems (IDS) melalui analisis data jaringan
  • Sistem Perbankan: Bank terkemuka seperti JP Morgan menggunakan penambangan data untuk penilaian kredit, deteksi penipuan, memprediksi default pembayaran, dll.
  • Aplikasi Lain: Data mining digunakan di banyak cabang teknik untuk deteksi anomali (mendeteksi kelainan). Ia juga ditemukan dalam aplikasi Deteksi Kebohongan, Investigasi Kriminal, Penanggulangan Terorisme, dll.

Masalah Privasi

Pada tahun 2018, Facebook menjadi sorotan dengan skandal pelanggaran data besar-besaran yang membahayakan jutaan informasi pribadi penggunanya ke perusahaan Konsultasi Inggris bernama Cambridge Analytica. Skandal ini mempertanyakan praktik etika tidak hanya di Facebook tetapi juga perusahaan lain yang digerakkan oleh AI.

Skandal Facebook-Cambridge Analytica adalah contoh utama dari data mining yang tidak etis yang disebut data harvesting.

Penambangan data adalah teknik yang ampuh tetapi harus dilakukan dalam batasan etika. Karenanya, bisnis harus memastikan bahwa kebijakan privasinya ditetapkan untuk semua kepentingan pemangku kepentingannya, termasuk pelanggan.

Ingin artikel seperti ini ada di website perusahaan Anda? Atau sedang mencari jasa penulis artikel? Hubungi kami melalui tautan ini.