Gini Index
Pendahuluan
Dalam Artificial Intelligence (AI) dan Machine Learning, decision tree sering digunakan karena logikanya mudah dipahami dan hasilnya cukup interpretatif. Salah satu konsep penting yang menentukan bagaimana decision tree membagi data adalah Gini Index.
Gini Index digunakan sebagai ukuran ketidakmurnian data pada suatu node, dan berperan besar dalam menentukan split terbaik.
Apa Itu Gini Index
Gini Index (atau Gini Impurity) mengukur seberapa bercampur kelas-kelas data di dalam satu node.
- Node dengan satu kelas saja → murni
- Node dengan beberapa kelas bercampur → tidak murni
Nilai Gini menjawab pertanyaan sederhana:
Seberapa besar kemungkinan data dalam node ini salah diklasifikasikan?
Semakin kecil nilai Gini, semakin baik kualitas node tersebut.
Rumus Gini Index
Rumus Gini Index adalah:
Gini = 1 - (p1² + p2² + ... + pn²)
Keterangan:
pi= proporsi data pada kelas ke-in= jumlah kelas
Contoh
Misalnya satu node memiliki:
- Kelas Positif: 75%
- Kelas Negatif: 25%
Maka:
Gini = 1 - (0.75² + 0.25²)
= 1 - (0.5625 + 0.0625)
= 0.375
Artinya, node tersebut masih mengandung campuran kelas dan belum sepenuhnya murni.
Peran Gini Index dalam Decision Tree
Saat membangun decision tree, algoritma akan:
- Mencoba berbagai kemungkinan split pada setiap fitur
- Menghitung Gini Index untuk node hasil split
- Menghitung weighted Gini dari semua node anak
- Memilih split dengan nilai Gini paling rendah
Tujuannya adalah menghasilkan node-node yang lebih homogen dibanding node sebelumnya.
Gambaran Intuitif
Bayangkan data ingin dipisahkan ke dalam beberapa kelompok.
- Jika satu kelompok hampir semuanya berasal dari kelas yang sama, berarti pemisahan tersebut bagus.
- Jika setiap kelompok masih campur, berarti pemisahannya kurang efektif.
Gini Index membantu decision tree menilai kualitas pemisahan ini secara kuantitatif.
Gini Index vs Entropy
Selain Gini Index, kriteria lain yang sering digunakan adalah Entropy (Information Gain).
Perbandingan singkat:
-
Gini Index
- Perhitungan lebih sederhana
- Lebih cepat
- Digunakan pada CART dan Random Forest
-
Entropy
- Berbasis teori informasi
- Lebih sensitif terhadap perubahan distribusi kelas
Dalam banyak kasus nyata, hasil keduanya tidak berbeda signifikan.
Kelebihan Gini Index
Beberapa keunggulan Gini Index:
- Efisien secara komputasi
- Mudah diimplementasikan
- Cocok untuk dataset besar
- Stabil dalam praktik industri
Keterbatasan Gini Index
Namun, Gini Index juga memiliki batasan:
- Cenderung memilih fitur dengan banyak kategori
- Optimal secara lokal, bukan global
- Kurang kuat secara teori dibanding entropy
Kesimpulan
Gini Index adalah ukuran ketidakmurnian yang digunakan decision tree untuk memilih split terbaik. Dengan meminimalkan nilai Gini, decision tree berusaha membentuk struktur pohon yang memisahkan kelas data secara efektif.
Memahami Gini Index berarti memahami salah satu mekanisme inti di balik cara kerja decision tree dan algoritma turunan seperti Random Forest dalam AI.