Regresi logistik (Logistic Regression) merupakan
alternative uji jika asumsi multivariate normal distribution pada variabel bebasnya
tidak bisa terpenuhi ketika akan dilakukan analisis diskriminan. Tidak
terpenuhinya asumsi ini dikarenakan variabel bebas merupakan campuran antara
variabel kontinyu (metric) dan kategorial (non metric). Misalnya, probabilitas
bahwa orang yang menderita serangan jantung pada waktu tertentu dapat
diprediksi dari informasi usia, kebiasaan merokok, jenis kelamin, dan lainnya.
Pada logistic regresi, dependen
variabel adalah variabel dikotomi (kategori). Ketika kategori variabel
dependennya berjumlah dua kategori maka digunakan binary logistic, dan ketika
dependen variabelnya lebih dari dua kategori maka digunakan multinominal logistic
regression. Lalu ketika dependen variabelnya berbentuk ranking, maka disebut
dengan ordinal logistic regression.
Saya akan menjelaskan Contoh
Regresi Logistik menggunakan Jupyter Notebook
Pada Contoh ini saya menggambil
data untuk menentukan regresi logistik untuk menentukan seberapa besarnya
tingkat rata-rata wanita yang memiliki anak dengan berat lahir
rendah lebih cenderung menjadi perokok daripada bukan perokok.
Langkah pertama import module/library pada
jupyter
Selanjutnya yang perlu kita lakukan adalah memuat kumpulan data dalam file CSV
Selanjutnya yaitu menampilkan data
berdasarkan ‘low’ dan juga ‘birth’
Kita dapat melihat bahwa rata-rata,
wanita yang memiliki anak dengan berat lahir rendah lebih cenderung menjadi
perokok daripada bukan perokok.
Selanjutnya akan menampilkan tentang
histogram angka kelahiran anak dengan berat yang kurang
lalu memasukan kodingan tentang histogram
berdasarkan usia ibu
Lalu menampilkan distribusi perokok untuk mereka yang memiliki anak dengan berat badan lahir rendah dengan mereka yang tidak.
Lalu kita gunakan barplot bertumpuk
untuk melihat persentase wanita yang memiliki anak dengan berat lahir rendah
berdasarkan usia
Membuat dataframe dengan kolom
intersepsi untuk variabel x dan y berdasarkan id,birth,smoke,race,age dan lwt.
Setelah itu perlu meratakan y ke dalam array 1-D
Selanjutnya jalankan regresi logistik pada seluruh kumpulan
data, dan lihat berapa hasilnya
Lalu melihat hasil wanita yang memiliki tingkat kelahiran
anak yang rendah
Selanjutnya yaitu melihat hasil koefisien
data tersebut
Sekarang mengambil variabel AGE dan
mengubahnya menjadi variabel kategori, untuk melihat apakah dapat meningkatkan model. Kami akan melakukan
ini dengan membuat dua frame data dari data asli. kemudian akan menggabungkan
dua frame data, jadi keduanya perlu mengandung variabel ID. Satu data dari akan
memiliki variabel kategori dikonversi age_group, dan yang lainnya akan memiliki
variabel dependen dan variabel independen lainnya.
Terakhir
menggabungkan dua frame data
Kesimpulannya Status Merokok berhubungan dengan penurunan
kemungkinan memiliki anak dengan berat lahir rendah.
Sumber :
Terimakasih ilmunya :)
BalasHapus