Machine Learning (Logistic Regression)
Statistika memegang peranan penting dalam
berbagai bidang ilmu. Salah satu cabang statistika yang banyak digunakan adalah
analisis regresi. Analisis regresi digunakan untuk memodelkan hubungan
antara variabel dependen (terikat) dan satu atau lebih variabel independen
(penjelas). Regresi linear merupakan metode analisis regresi yang paling umum
digunakan, namun metode ini memiliki keterbatasan. Regresi linear hanya dapat
digunakan untuk memprediksi variabel dependen yang berdistribusi normal dan
bernilai kontinu.
Dalam dunia nyata, banyak masalah yang melibatkan variabel dependen bersifat kategoris atau biner, seperti "ya" atau "tidak", "lulus" atau "gagal", dan lain sebagainya. Untuk mengatasi keterbatasan regresi linear, maka diperlukan metode analisis regresi yang lebih sesuai untuk data kategoris biner, yaitu regresi logistik.
Regresi Logistik merupakan salah satu algoritma Machine Learning yang banyak digunakan untuk menyelesaikan tugas klasifikasi. Algoritma ini memiliki kemampuan untuk memprediksi probabilitas suatu data tergolong dalam satu kelas atau kelas lainnya. Metode ini menggunakan model matematika yang disebut fungsi logistik untuk memodelkan hubungan antara variabel dependen biner dan variabel independen.
Definisi
Logistic Regression adalah algoritma klasifikasi
yang digunakan untuk memprediksi probabilitas suatu variabel dependen
kategorikal. Dalam logistic regression, variabel dependen adalah variabel biner
yang berisi data yang dikodekan sebagai 1 (ya, sukses, dll.) atau 0 (tidak,
kegagalan, dll.). Dengan kata lain, logistic regression model memprediksi
P(Y=1) sebagai fungsi dari X.
Keunggulan Regresi Logistik
- Mudah
diinterpretasikan: Koefisien regresi memiliki interpretasi yang jelas dan
mudah dipahami.
- Robus
terhadap outliers: Model regresi logistik relatif kuat terhadap data
outlier (nilai yang sangat berbeda dari nilai lain).
- Dapat digunakan untuk berbagai
macam masalah klasifikasi: Regresi logistik dapat diterapkan pada berbagai
jenis data biner.
Kelemahan Regresi Logistik
- Memerlukan
data biner: Regresi logistik hanya dapat digunakan untuk memprediksi
variabel dependen biner.
- Memerlukan
data yang cukup: Model regresi logistik membutuhkan data yang cukup untuk
menghasilkan prediksi yang akurat.
- Sensitif terhadap multikolinearitas: Multikolinearitas (hubungan yang kuat antara variabel independen) dapat memengaruhi akurasi model.
Konsep Dasar Regresi Logistik
Definisi variabel dependen dan independen
Variabel dependen adalah variabel biner atau kategorikal, yaitu variabel yang hanya memiliki dua kemungkinan nilai. Contoh dari variabel dependen pada regresi logistik adalah apakah seseorang memiliki penyakit atau tidak memiliki penyakit, apakah seseorang akan membeli produk atau tidak membeli produk Variabel independen adalah variabel yang digunakan untuk memprediksi nilai variabel dependen. Variabel independen dapat berupa variabel numerik atau kategorikal. Contoh dari variabel independen pada regresi logistik adalah usia, jenis kelamin, pendidikan, pengalaman kerja, dan lain sebagainya.
Fungsi Logit
Fungsi logit adalah fungsi matematika yang digunakan untuk mengubah nilai probabilitas menjadi nilai log odds. Log odds merupakan nilai yang digunakan untuk mengukur peluang terjadinya suatu peristiwa. Fungsi logit digunakan dalam regresi logistik untuk memodelkan hubungan antara variabel independen dan variabel dependen. Secara umum, model regresi logistik dapat dituliskan dengan persamaan berikut:
-
Formula
Berikut adalah formula matematika dari Logistic Regression :
Di mana:
- P(Y=1) adalah probabilitas dari variabel dependen (Y) yang bernilai 1 atau 'sukses'.
- e adalah bilangan Euler.
- b0 dan b1 adalah parameter dari model yang dipelajari dari data pelatihan.
- X adalah variabel independen.
Algoritma ini bekerja dengan cara mencari nilai terbaik untuk parameter b0 dan b1 yang meminimalkan kesalahan antara prediksi yang dibuat oleh model dan data aktual. Ini biasanya dilakukan dengan teknik seperti Gradient Descent.
Setelah model dilatih dan parameter optimal ditemukan, model dapat digunakan untuk memprediksi hasil pada data baru. Misalnya, jika Anda memiliki data tentang seorang pasien dan Anda ingin memprediksi apakah pasien tersebut akan mengalami serangan jantung atau tidak, Anda dapat menggunakan logistic regression dengan variabel-variabel seperti usia pasien, tekanan darah, dan riwayat keluarga sebagai variabel independen (X).
Meskipun logistic regression adalah algoritma yang kuat dan sering digunakan, ia memiliki beberapa asumsi dan batasan. Misalnya, ia mengasumsikan bahwa variabel independen adalah linier dan bahwa tidak ada multikolinearitas, yang berarti bahwa tidak ada dua variabel independen yang sangat berkorelasi satu sama lain. Jika asumsi-asumsi ini tidak dipenuhi, hasil dari logistic regression mungkin tidak akurat. Selain itu, logistic regression mungkin tidak bekerja dengan baik jika ada hubungan non-linier antara variabel independen dan dependen atau jika ada interaksi antara variabel independen. Dalam kasus-kasus seperti itu, mungkin perlu menggunakan algoritma yang lebih kompleks.
Contoh Kasus Modul Python
Berikut link yang dapat anda gunakan untuk melihat hasiil kode kami
LINK : Regresi Logistik Python
0 Komentar