Hari ini aku mencoba mempraktikkan regresi logistik menggunakan data yang dekat dengan topik penelitianku sendiri. Metode ini sangat berguna ketika kita ingin memprediksi hasil biner—misalnya, mahasiswa lulus atau tidak lulus ujian—berdasarkan berbagai indikator akademik dan perilaku belajar.
Konteks Penelitian
Dataset yang kupakai memuat:
-
Status kelulusan UKMPPD (1 = Lulus, 0 = Tidak Lulus) → variabel dependen
-
Nilai ujian blok (skor numerik)
-
Persentase kehadiran kuliah (dalam %)
-
Total waktu akses e-learning (jam)
-
Jumlah partisipasi diskusi online (post)
Tujuan analisis ini adalah untuk mengetahui faktor-faktor mana yang paling signifikan memengaruhi peluang mahasiswa lulus UKMPPD dan berapa besar kontribusinya.
Langkah di SPSS
-
Buka data di SPSS dan pastikan variabel dependen sudah dalam bentuk 0/1.
-
Masuk ke menu:Analyze → Regression → Binary Logistic
-
Masukkan variabel:
-
Dependent: Status_kelulusan
-
Covariates: Nilai_ujian, Kehadiran, Waktu_elearning, Partisipasi_diskusi
-
-
Klik Options untuk mengaktifkan Hosmer and Lemeshow test dan Classification table.
-
Klik OK untuk menjalankan analisis.
Interpretasi Output
Misalnya hasil SPSS menunjukkan:
Variabel | B | Sig. | Exp(B) |
---|---|---|---|
Nilai ujian blok | 0,05 | 0,001 | 1,051 |
Kehadiran kuliah | 0,04 | 0,030 | 1,041 |
Waktu e-learning | 0,10 | 0,002 | 1,105 |
Partisipasi diskusi | 0,20 | 0,050 | 1,222 |
-
Nilai ujian blok: setiap kenaikan 1 poin, peluang lulus naik 5,1%.
-
Kehadiran kuliah: setiap kenaikan 1% kehadiran, peluang lulus naik 4,1%.
-
Waktu e-learning: setiap tambahan 1 jam akses, peluang lulus naik 10,5%.
-
Partisipasi diskusi: setiap tambahan 1 posting diskusi, peluang lulus naik 22,2%.
Pelajaran Penting
Analisis ini menunjukkan bahwa perilaku belajar di platform online ternyata punya kontribusi yang signifikan terhadap kelulusan. Ini bukan hanya insight untuk publikasi, tapi juga masukan strategis bagi program studi—misalnya, memperkuat interaksi di forum diskusi atau mendorong mahasiswa untuk lebih sering mengakses materi online.
Membandingkan Regresi Logistik dengan Decision Tree dalam Learning Analytics
Setelah mencoba regresi logistik untuk memprediksi kelulusan UKMPPD, aku penasaran—bagaimana jika dataset yang sama dianalisis menggunakan decision tree? Apakah hasilnya akan berbeda, dan mana yang lebih akurat?
1. Regresi Logistik
-
Tipe analisis: Parametrik, memodelkan hubungan antara variabel prediktor dan outcome biner.
-
Output utama: Koefisien B, nilai signifikansi (p-value), dan Odds Ratio (Exp(B)).
-
Kelebihan:
-
Memberi ukuran kekuatan hubungan antarvariabel.
-
Mudah diinterpretasikan dalam bentuk peluang/risiko.
-
-
Kekurangan:
-
Membutuhkan asumsi hubungan logit yang linear.
-
Kurang intuitif bagi pembaca non-statistik.
-
2. Decision Tree
Metode ini membagi data menjadi kelompok-kelompok berdasarkan variabel yang paling berpengaruh terhadap variabel dependen.
a. CHAID (Chi-squared Automatic Interaction Detection)
-
Menggunakan uji Chi-square untuk memilih variabel pembagi.
-
Cocok untuk data kategorikal, bisa juga numerik yang dikategorikan.
-
Output: pohon keputusan dengan node yang jelas.
-
Interpretasi: sangat visual, mudah dipahami.
b. C&RT (Classification and Regression Trees)
-
Membagi data berdasarkan nilai prediktor yang meminimalkan impurity (Gini index).
-
Lebih fleksibel untuk kombinasi variabel numerik dan kategorikal.
-
Bisa menghasilkan model yang sangat spesifik, tapi rawan overfitting.
c. QUEST (Quick, Unbiased, Efficient Statistical Tree)
-
Lebih cepat dan efisien.
-
Menghindari bias pemilihan variabel.
-
Cocok untuk dataset besar dengan banyak variabel.
3. Contoh Hasil dengan Dataset Penelitian
Misalnya, dari data kelulusan UKMPPD dengan variabel:
-
Nilai ujian blok
-
Kehadiran kuliah
-
Waktu e-learning
-
Partisipasi diskusi
4. Perbandingan Akurasi (Misal)
Metode | Akurasi (%) |
---|---|
Regresi Logistik | 82,5% |
Decision Tree CHAID | 79,0% |
Decision Tree C&RT | 81,2% |
Decision Tree QUEST | 80,5% |
5. Kesimpulan Praktis
-
Regresi logistik lebih tepat untuk memahami hubungan antarvariabel secara kuantitatif dan melaporkannya di jurnal ilmiah.
-
Decision tree lebih menarik untuk penyajian visual dan memberi gambaran praktis siapa yang paling berisiko tidak lulus.
-
Kombinasi keduanya akan membuat penelitian lebih komprehensif:
-
Regresi logistik → analisis inferensial.
-
Decision tree → analisis deskriptif visual.
-
0 komentar: