Pendahuluan


Dalam Artificial Intelligence (AI) dan Machine Learning, decision tree sering digunakan karena logikanya mudah dipahami dan hasilnya cukup interpretatif. Salah satu konsep penting yang menentukan bagaimana decision tree membagi data adalah Gini Index.

Gini Index digunakan sebagai ukuran ketidakmurnian data pada suatu node, dan berperan besar dalam menentukan split terbaik.


Apa Itu Gini Index

Gini Index (atau Gini Impurity) mengukur seberapa bercampur kelas-kelas data di dalam satu node.

  • Node dengan satu kelas saja → murni
  • Node dengan beberapa kelas bercampur → tidak murni

Nilai Gini menjawab pertanyaan sederhana:

Seberapa besar kemungkinan data dalam node ini salah diklasifikasikan?

Semakin kecil nilai Gini, semakin baik kualitas node tersebut.


Rumus Gini Index

Rumus Gini Index adalah:

Gini = 1 - (p1² + p2² + ... + pn²)

Keterangan:

  • pi = proporsi data pada kelas ke-i
  • n = jumlah kelas

Contoh

Misalnya satu node memiliki:

  • Kelas Positif: 75%
  • Kelas Negatif: 25%

Maka:

Gini = 1 - (0.75² + 0.25²)
     = 1 - (0.5625 + 0.0625)
     = 0.375

Artinya, node tersebut masih mengandung campuran kelas dan belum sepenuhnya murni.


Peran Gini Index dalam Decision Tree

Saat membangun decision tree, algoritma akan:

  1. Mencoba berbagai kemungkinan split pada setiap fitur
  2. Menghitung Gini Index untuk node hasil split
  3. Menghitung weighted Gini dari semua node anak
  4. Memilih split dengan nilai Gini paling rendah

Tujuannya adalah menghasilkan node-node yang lebih homogen dibanding node sebelumnya.


Gambaran Intuitif

Bayangkan data ingin dipisahkan ke dalam beberapa kelompok.

  • Jika satu kelompok hampir semuanya berasal dari kelas yang sama, berarti pemisahan tersebut bagus.
  • Jika setiap kelompok masih campur, berarti pemisahannya kurang efektif.

Gini Index membantu decision tree menilai kualitas pemisahan ini secara kuantitatif.


Gini Index vs Entropy

Selain Gini Index, kriteria lain yang sering digunakan adalah Entropy (Information Gain).

Perbandingan singkat:

  • Gini Index

    • Perhitungan lebih sederhana
    • Lebih cepat
    • Digunakan pada CART dan Random Forest
  • Entropy

    • Berbasis teori informasi
    • Lebih sensitif terhadap perubahan distribusi kelas

Dalam banyak kasus nyata, hasil keduanya tidak berbeda signifikan.


Kelebihan Gini Index

Beberapa keunggulan Gini Index:

  • Efisien secara komputasi
  • Mudah diimplementasikan
  • Cocok untuk dataset besar
  • Stabil dalam praktik industri

Keterbatasan Gini Index

Namun, Gini Index juga memiliki batasan:

  • Cenderung memilih fitur dengan banyak kategori
  • Optimal secara lokal, bukan global
  • Kurang kuat secara teori dibanding entropy

Kesimpulan

Gini Index adalah ukuran ketidakmurnian yang digunakan decision tree untuk memilih split terbaik. Dengan meminimalkan nilai Gini, decision tree berusaha membentuk struktur pohon yang memisahkan kelas data secara efektif.

Memahami Gini Index berarti memahami salah satu mekanisme inti di balik cara kerja decision tree dan algoritma turunan seperti Random Forest dalam AI.