Hari ke-18 – Menyusuri Cabang-cabang Decision Tree di SPSS

 


Pagi ini aku duduk di depan laptop, membuka SPSS, lalu menatap data penelitian yang sudah rapi di lembar kerja. Ada rasa penasaran yang menggelitik: bagaimana kalau kali ini aku mencoba Decision Tree?

Alasannya sederhana. Aku ingin publikasi Scopus yang sedang aku persiapkan ini punya kekuatan analisis yang tajam. Decision Tree memberi peluang itu—bukan hanya untuk memprediksi, tapi juga untuk memahami pola dalam data. Dan aku tahu ini akan relevan untuk bidangku, terutama saat mengolah data performa akademik mahasiswa dan mengaitkannya dengan variabel lingkungan belajar.

Ternyata, SPSS menawarkan tiga “jalan” yang bisa ditempuh:

  • CHAID (Chi-squared Automatic Interaction Detection): cocok untuk data kategori, memecah berdasarkan uji chi-square.

  • C&RT (Classification and Regression Trees): fleksibel, bisa untuk data kategorik maupun numerik.

  • QUEST (Quick, Unbiased, Efficient Statistical Tree): lebih cepat, meminimalkan bias dalam pembagian node.

Awalnya aku sempat bingung. Tiga metode ini seperti tiga rute menuju destinasi yang sama, tapi dengan karakteristik berbeda. Jadi aku memutuskan untuk mencoba ketiganya, lalu membandingkan hasilnya.


Langkah-langkah Menggunakan Decision Tree di SPSS

1. Siapkan Data

Aku memastikan semua data sudah bersih:

  • Tidak ada missing value.

  • Variabel target jelas (misalnya: lulus tepat waktu vs tidak lulus tepat waktu).

  • Variabel prediktor sudah terdefinisi dengan benar (skala, tipe data).

📌 Catatan pribadi: Waktu awal, aku lupa mengubah beberapa variabel menjadi kategori (nominal), akibatnya CHAID tidak bisa berjalan dengan benar. Jadi, jangan abaikan definisi variabel.

2. Buka Menu Decision Tree

  • Klik AnalyzeClassifyTree…

3. Atur Variabel Target dan Prediktor

  • Masukkan variabel yang ingin diprediksi ke Dependent Variable.

  • Masukkan variabel-variabel prediktor ke Independent Variables.

4. Pilih Metode Tree

Di bagian Method, pilih:

  • CHAID → jika ingin uji chi-square untuk pemisahan node.

  • C&RT → jika ingin metode pembagian berdasarkan Gini atau entropy.

  • QUEST → jika ingin pembagian cepat dan mengurangi bias.

Refleksi: Aku suka mencoba ketiga metode ini untuk melihat perbedaan struktur pohonnya. Terkadang, pohon dari QUEST lebih sederhana, tapi CHAID memberi pembagian yang lebih “detil” untuk data kategorika

5. Atur Opsi

Klik tombol Criteria:

  • Tentukan Maximum Tree Depth (kedalaman pohon).

  • Atur Minimum Cases in Parent/Child Node sesuai ukuran data.

  • Centang “Display tree diagram” supaya bisa melihat visualisasi hasil.

6. Jalankan Analisis

Klik OK dan tunggu SPSS membangun pohon keputusanmu.

7. Interpretasi Output

  • Tree Diagram → lihat bagaimana data terbagi di setiap node.

  • Classification Table → melihat akurasi prediksi.

  • Rules → membaca aturan yang terbentuk dari pohon.

Catatan pribadi: Saat pertama melihat diagram pohon, aku seperti membaca peta baru. Ada jalur yang ternyata sangat jelas menuju “prediksi tepat waktu”, dan ada juga jalur yang menunjukkan potensi masalah pada kelompok tertentu. Insight ini langsung memicu ide-ide diskusi di bagian pembahasan naskah.


Membandingkan Akurasi CHAID, C&RT, dan QUEST

Setelah aku menjalankan ketiga metode ini di dataset yang sama, aku mulai membandingkan hasilnya. Di SPSS, perbandingan akurasi ini bisa langsung dilihat di Classification Table yang muncul di output masing-masing analisis.

Langkah yang aku lakukan untuk membandingkan:

  1. Catat nilai akurasi (Correctly Classified Cases) dari masing-masing metode.

  2. Perhatikan jumlah node dan kedalaman pohon.

  3. Cek aturan (rules) yang dihasilkan, apakah logis dan relevan dengan konteks penelitian.

Hasil Pengamatan

  • CHAID

    • Akurasi: Biasanya cukup baik untuk data kategorikal.

    • Kelebihan: Aturan pembagian jelas berdasarkan uji chi-square.

    • Kekurangan: Pohon bisa menjadi terlalu lebar kalau banyak kategori.

  • C&RT

    • Akurasi: Kadang sedikit lebih tinggi dari CHAID jika data berisi variabel kontinu.

    • Kelebihan: Bisa menghasilkan pohon yang lebih seimbang.

    • Kekurangan: Bisa terlalu dalam, sehingga berisiko overfitting.

  • QUEST

    • Akurasi: Tidak selalu paling tinggi, tapi stabil.

    • Kelebihan: Lebih cepat, menghindari bias pada variabel dengan banyak kategori.

    • Kekurangan: Pohon kadang terlalu sederhana sehingga melewatkan pola tertentu.

Refleksi pribadiku:
Melihat hasil ini membuatku paham kenapa pemilihan metode harus mempertimbangkan jenis data dan tujuan analisis. Misalnya, untuk publikasi yang ingin menonjolkan interpretasi aturan yang mudah dipahami pembaca awam, mungkin CHAID lebih cocok. Tapi kalau tujuan utamanya adalah akurasi prediksi, aku harus melihat mana yang memberi nilai tertinggi tanpa terlalu kompleks.

Aku jadi ingat pesan pembimbing: “Metode itu alat, bukan tujuan. Pilihlah yang membantumu menjawab pertanyaan penelitian, bukan hanya yang terlihat keren.”


0 komentar: