Machine Learning (Logistic Regression)


Statistika memegang peranan penting dalam berbagai bidang ilmu. Salah satu cabang statistika yang banyak digunakan adalah analisis regresi. Analisis regresi digunakan untuk memodelkan hubungan antara variabel dependen (terikat) dan satu atau lebih variabel independen (penjelas). Regresi linear merupakan metode analisis regresi yang paling umum digunakan, namun metode ini memiliki keterbatasan. Regresi linear hanya dapat digunakan untuk memprediksi variabel dependen yang berdistribusi normal dan bernilai kontinu.

Dalam dunia nyata, banyak masalah yang melibatkan variabel dependen bersifat kategoris atau biner, seperti "ya" atau "tidak", "lulus" atau "gagal", dan lain sebagainya. Untuk mengatasi keterbatasan regresi linear, maka diperlukan metode analisis regresi yang lebih sesuai untuk data kategoris biner, yaitu regresi logistik.

Regresi Logistik merupakan salah satu algoritma Machine Learning yang banyak digunakan untuk menyelesaikan tugas klasifikasi. Algoritma ini memiliki kemampuan untuk memprediksi probabilitas suatu data tergolong dalam satu kelas atau kelas lainnya. Metode ini menggunakan model matematika yang disebut fungsi logistik untuk memodelkan hubungan antara variabel dependen biner dan variabel independen.


Definisi

Logistic Regression adalah algoritma klasifikasi yang digunakan untuk memprediksi probabilitas suatu variabel dependen kategorikal. Dalam logistic regression, variabel dependen adalah variabel biner yang berisi data yang dikodekan sebagai 1 (ya, sukses, dll.) atau 0 (tidak, kegagalan, dll.). Dengan kata lain, logistic regression model memprediksi P(Y=1) sebagai fungsi dari X.

Keunggulan Regresi Logistik

  • Mudah diinterpretasikan: Koefisien regresi memiliki interpretasi yang jelas dan mudah dipahami.
  • Robus terhadap outliers: Model regresi logistik relatif kuat terhadap data outlier (nilai yang sangat berbeda dari nilai lain).
  • Dapat digunakan untuk berbagai macam masalah klasifikasi: Regresi logistik dapat diterapkan pada berbagai jenis data biner.

Kelemahan Regresi Logistik

  • Memerlukan data biner: Regresi logistik hanya dapat digunakan untuk memprediksi variabel dependen biner.
  • Memerlukan data yang cukup: Model regresi logistik membutuhkan data yang cukup untuk menghasilkan prediksi yang akurat.
  • Sensitif terhadap multikolinearitas: Multikolinearitas (hubungan yang kuat antara variabel independen) dapat memengaruhi akurasi model.


Konsep Dasar Regresi Logistik


Definisi variabel dependen dan independen

Variabel dependen adalah variabel biner atau kategorikal, yaitu variabel yang hanya memiliki dua kemungkinan nilai. Contoh dari variabel dependen pada regresi logistik adalah apakah seseorang memiliki penyakit atau tidak memiliki penyakit, apakah seseorang akan membeli produk atau tidak membeli produk Variabel independen adalah variabel yang digunakan untuk memprediksi nilai variabel dependen. Variabel independen dapat berupa variabel numerik atau kategorikal. Contoh dari variabel independen pada regresi logistik adalah usia, jenis kelamin, pendidikan, pengalaman kerja, dan lain sebagainya.


Fungsi Logit

Fungsi logit adalah fungsi matematika yang digunakan untuk mengubah nilai probabilitas menjadi nilai log odds. Log odds merupakan nilai yang digunakan untuk mengukur peluang terjadinya suatu peristiwa. Fungsi logit digunakan dalam regresi logistik untuk memodelkan hubungan antara variabel independen dan variabel dependen. Secara umum, model regresi logistik dapat dituliskan dengan persamaan berikut:

  •  Formula

    Berikut adalah formula matematika dari Logistic Regression :

     

    Di mana:

    - P(Y=1) adalah probabilitas dari variabel dependen (Y) yang bernilai 1 atau 'sukses'.

    - e adalah bilangan Euler.

    - b0 dan b1 adalah parameter dari model yang dipelajari dari data pelatihan.

    - X adalah variabel independen.

     

    Algoritma ini bekerja dengan cara mencari nilai terbaik untuk parameter b0 dan b1 yang meminimalkan kesalahan antara prediksi yang dibuat oleh model dan data aktual. Ini biasanya dilakukan dengan teknik seperti Gradient Descent.

    Setelah model dilatih dan parameter optimal ditemukan, model dapat digunakan untuk memprediksi hasil pada data baru. Misalnya, jika Anda memiliki data tentang seorang pasien dan Anda ingin memprediksi apakah pasien tersebut akan mengalami serangan jantung atau tidak, Anda dapat menggunakan logistic regression dengan variabel-variabel seperti usia pasien, tekanan darah, dan riwayat keluarga sebagai variabel independen (X).

     Meskipun logistic regression adalah algoritma yang kuat dan sering digunakan, ia memiliki beberapa asumsi dan batasan. Misalnya, ia mengasumsikan bahwa variabel independen adalah linier dan bahwa tidak ada multikolinearitas, yang berarti bahwa tidak ada dua variabel independen yang sangat berkorelasi satu sama lain. Jika asumsi-asumsi ini tidak dipenuhi, hasil dari logistic regression mungkin tidak akurat. Selain itu, logistic regression mungkin tidak bekerja dengan baik jika ada hubungan non-linier antara variabel independen dan dependen atau jika ada interaksi antara variabel independen. Dalam kasus-kasus seperti itu, mungkin perlu menggunakan algoritma yang lebih kompleks.


 Contoh Kasus Modul Python

  Berikut  link yang dapat anda gunakan untuk melihat hasiil kode kami

  LINK : Regresi Logistik Python