Minggu, 07 Juli 2019

Logistic Regression


Regresi logistik (Logistic Regression) merupakan alternative uji jika asumsi multivariate normal distribution pada variabel bebasnya tidak bisa terpenuhi ketika akan dilakukan analisis diskriminan. Tidak terpenuhinya asumsi ini dikarenakan variabel bebas merupakan campuran antara variabel kontinyu (metric) dan kategorial (non metric). Misalnya, probabilitas bahwa orang yang menderita serangan jantung pada waktu tertentu dapat diprediksi dari informasi usia, kebiasaan merokok, jenis kelamin, dan lainnya.

Pada logistic regresi, dependen variabel adalah variabel dikotomi (kategori). Ketika kategori variabel dependennya berjumlah dua kategori maka digunakan binary logistic, dan ketika dependen variabelnya lebih dari dua kategori maka digunakan multinominal logistic regression. Lalu ketika dependen variabelnya berbentuk ranking, maka disebut dengan ordinal logistic regression.

Saya akan menjelaskan Contoh Regresi Logistik menggunakan Jupyter Notebook

Pada Contoh ini saya menggambil data untuk menentukan regresi logistik untuk menentukan seberapa besarnya tingkat rata-rata wanita yang memiliki anak dengan berat lahir rendah lebih cenderung menjadi perokok daripada bukan perokok.

Langkah pertama import module/library pada jupyter


Selanjutnya yang perlu kita lakukan adalah memuat kumpulan data dalam file CSV

Selanjutnya yaitu menampilkan data berdasarkan ‘low’ dan juga ‘birth’
Kita dapat melihat bahwa rata-rata, wanita yang memiliki anak dengan berat lahir rendah lebih cenderung menjadi perokok daripada bukan perokok.



Selanjutnya akan menampilkan tentang histogram angka kelahiran anak dengan berat yang kurang


lalu memasukan kodingan tentang histogram berdasarkan usia ibu


Lalu menampilkan distribusi perokok untuk mereka yang memiliki anak dengan berat badan lahir rendah dengan mereka yang tidak.



Lalu kita gunakan barplot bertumpuk untuk melihat persentase wanita yang memiliki anak dengan berat lahir rendah berdasarkan usia



Membuat dataframe dengan kolom intersepsi untuk variabel x dan y berdasarkan id,birth,smoke,race,age dan lwt.



Setelah itu perlu meratakan y ke dalam array 1-D


Selanjutnya jalankan regresi logistik pada seluruh kumpulan data, dan lihat berapa hasilnya

Lalu melihat hasil wanita yang memiliki tingkat kelahiran anak yang rendah

Selanjutnya yaitu melihat hasil koefisien data tersebut


Sekarang mengambil variabel AGE dan mengubahnya menjadi variabel kategori, untuk melihat apakah  dapat meningkatkan model. Kami akan melakukan ini dengan membuat dua frame data dari data asli. kemudian akan menggabungkan dua frame data, jadi keduanya perlu mengandung variabel ID. Satu data dari akan memiliki variabel kategori dikonversi age_group, dan yang lainnya akan memiliki variabel dependen dan variabel independen lainnya.


Terakhir menggabungkan dua frame data


Kesimpulannya Status Merokok berhubungan dengan penurunan kemungkinan memiliki anak dengan berat lahir rendah.





Sumber :