Word Embedding

Pendahuluan

Bayangkan Anda ingin mengajari komputer cara membaca dan memahami cerita.

Masalahnya: Komputer hanya mengerti angka, bukan kata-kata seperti “kucing,” “berlari,” atau “bahagia.

“Dulu, cara paling sederhana untuk mengubah kata menjadi angka adalah memberi setiap kata satu ID unik.

Misalnya :

001 untuk “kucing”
002 untuk “anjing”
003 untuk “berlari”

Masalah dari cara lama ini adalah :

Komputer Tidak Tahu Makna:

Angka 001 (“kucing”) dan 002 (“anjing”) dianggap sama jauhnya dengan 003 (“berlari”).

Padahal, secara makna, “kucing” dan “anjing” jauh lebih dekat karena keduanya adalah hewan peliharaan.

Vektornya Terlalu Panjang.

Untuk jutaan kata, daftarnya akan sangat panjang dan membebani memori komputer.

Jadi, Apa Itu Word Embedding ?

Word Embedding adalah trik untuk mengubah setiap kata menjadi daftar kecil angka (biasanya 50 sampai 100 angka), yang disebut vektor.

Tujuan utamanya:

Memastikan bahwa kata-kata yang memiliki makna serupa akan memiliki daftar angka yang hampir sama.

Misalnya, kata “raja” dan “ratu” akan memiliki angka-angka yang sangat mirip di dalam vektornya.

Kata “ikan” dan “berenang” juga akan lebih mirip satu sama lain daripada dengan kata “meja”.

Bagaimana Komputer Membuat Angka-Angka Ini? (Word2Vec)

Komputer menggunakan algoritma canggih (salah satunya yang paling terkenal adalah Word2Vec).

Cara kerjanya seperti ini:

“Kata-kata yang sering muncul bersamaan, cenderung memiliki makna yang sama.”
Komputer membaca miliaran kalimat, misalnya: “Anjing itu menggonggong di taman.”
Komputer melihat kata “menggonggong” dan mencatat kata-kata di sekitarnya (“anjing,” “itu,” “di,” “taman”).
Lalu, komputer membaca kalimat lain: “Serigala itu melolong di hutan.”

Karena kata “menggonggong” dan “melolong” sering dikelilingi oleh kata-kata yang serupa (jenis hewan, tempat, dll.),

Komputer secara otomatis memberi mereka vektor (daftar angka) yang sangat mirip.

Contoh Struktur Data Word Embedding Sederhana

Vektor untuk Kata “Anjing” dan “Kucing”

Word Embedding merepresentasikan setiap kata sebagai vektor numerik.

Kedekatan antar vektor mencerminkan kemiripan makna.

Dalam contoh sederhana ini, kita menggunakan 3 dimensi vektor (x, y, z) sebagai ilustrasi.

Kata	Dimensi 1 (Hewan)	Dimensi 2 (Berbulu)	Dimensi 3 (Jinak)	Vektor (Representasi Numerik)	Interpretasi Komputer
Anjing	`0.95`	`0.80`	`0.75`	`[0.95, 0.80, 0.75]`	Sangat Dekat dengan Kucing
Kucing	`0.90`	`0.78`	`0.70`	`[0.90, 0.78, 0.70]`	Sangat Dekat dengan Anjing
Buku	`-0.50`	`-0.10`	`-0.45`	`[-0.50, -0.10, -0.45]`	Jauh dari kategori Hewan

💡 Analisis Kemiripan Vektor

Komputer memahami hubungan antar kata melalui perhitungan jarak (misalnya, Jarak Kosinus) antara vektor-vektor ini.

1. Kemiripan Tinggi (Anjing vs. Kucing)

Vektornya: Angka-angka pada vektor Anjing dan Kucing memiliki nilai yang sangat berdekatan (misalnya, 0.95 vs 0.90).
Makna bagi Komputer: Jarak antara kedua vektor ini akan menghasilkan nilai yang sangat kecil (atau skor kemiripan yang tinggi), menandakan bahwa kedua kata tersebut memiliki makna yang serupa (keduanya termasuk dalam kategori Hewan Peliharaan).

2. Ketidakmiripan Jauh (Anjing vs. Buku)

Vektornya: Angka-angka pada vektor Anjing dan Buku memiliki nilai yang sangat berbeda dan bahkan memiliki tanda yang berlawanan (0.95 vs -0.50).
Makna bagi Komputer: Jarak antara kedua vektor ini akan menghasilkan nilai yang sangat besar.
Kesimpulan: Komputer tahu bahwa kedua kata ini tidak memiliki hubungan makna yang signifikan.

Visualisasi Konsep

Secara visual, jika diletakkan pada grafik 3D, kata Anjing dan Kucing akan membentuk cluster (kelompok) yang rapat, sedangkan Buku akan berada jauh di sudut yang berbeda.

Kesimpulan

Word Embedding adalah cara cerdas untuk memberi setiap kata koordinat di “peta makna”.

Semakin dekat kata-kata tersebut di peta, semakin mirip maknanya di mata komputer.

Ini membuat komputer dapat benar-benar memahami bahasa dan bukan hanya sekadar mencocokkan kata.

Huzefril