Attention is All You Need

Pendahuluan

Pada tahun 2017, tim peneliti dari Google memperkenalkan sebuah arsitektur baru dalam bidang kecerdasan buatan (AI) melalui paper berjudul “Attention is All You Need”.

Paper ini menjadi revolusi besar dalam dunia Natural Language Processing (NLP) — atau pemrosesan bahasa alami.

Mengapa revolusioner ?

Karena metode baru ini menggantikan sepenuhnya arsitektur lama seperti RNN dan LSTM, dan kini menjadi dasar model AI canggih seperti ChatGPT, BERT, dan T5.

🤔 Apa Masalahnya Sebelum Ada Transformer?

Sebelum Transformer, kita menggunakan model RNN (Recurrent Neural Networks) dan LSTM (Long Short-Term Memory) untuk memahami teks.

Model ini membaca kalimat dari kiri ke kanan (seperti manusia), tapi punya beberapa masalah besar:

⚠️ Lambat: Karena harus membaca satu kata per satu waktu (sekuensial).

⚠️ Sulit mengingat informasi panjang: Semakin panjang kalimatnya, semakin susah mengingat konteks dari awal.

⚠️ Training susah paralel: Karena bergantung pada urutan kata.

💡 Solusinya: Transformer

Para penulis paper berpendapat:

“Bagaimana kalau kita tidak usah bergantung pada urutan kata? Bagaimana kalau kita langsung melihat kata-kata penting di seluruh kalimat sekaligus?”

Dari sinilah muncul konsep “Attention”, khususnya Self-Attention.

🔍 Apa Itu Self-Attention?

Bayangkan kita membaca kalimat ini:

“Dia menyuruh adiknya membawa tas miliknya.”

Kata “miliknya” bisa merujuk ke siapa saja.

Untuk memahaminya, kita perlu melihat konteks seluruh kalimat.

Nah, self-attention memungkinkan model untuk memperhatikan setiap kata lain di kalimat, bukan hanya kata sebelumnya.

Secara sederhana:

Self-attention menjawab pertanyaan:

➡️ Kata ini penting nggak, kalau saya sedang memproses kata yang lain?

🧠 Struktur Transformer

Transformer dibagi menjadi dua bagian utama:

Encoder: Memahami input (misalnya kalimat dalam bahasa Inggris).
Decoder: Menghasilkan output (misalnya terjemahannya dalam bahasa Indonesia).

Setiap bagian terdiri dari:

⚙️ Self-Attention Layer

🧮 Feed Forward Neural Network

➕ Add & Norm (normalisasi data)

🔁 Banyak layer seperti ini ditumpuk

Dan semuanya bisa diproses paralel! Jadi training-nya jauh lebih cepat.

⚙️ Inti Teknologi: Scaled Dot-Product Attention

Di dalam self-attention, Transformer menggunakan rumus matematika yang menghitung:

Seberapa relevan kata ini dengan kata lainnya.

Dengan tiga konsep penting:

Query (Q)
Key (K)
Value (V)

Setiap kata diubah jadi vektor Q, K, dan V. Lalu dilakukan operasi matematika untuk menghitung “perhatian” antara kata-kata.

🔁 Multi-Head Attention

Alih-alih hanya satu “cara memandang” hubungan antar kata, Transformer memakai multi-head attention, yaitu beberapa “sudut pandang” sekaligus. Misalnya:

Head 1 melihat hubungan tata bahasa.

Head 2 melihat makna.

Head 3 melihat posisi kata.

Hasilnya digabung jadi satu representasi yang lebih kaya.

Kenapa Transformer Hebat?

✅ Cepat: Bisa diproses paralel.

✅ Akurat: Memahami konteks panjang.

✅ Fleksibel: Bisa digunakan untuk terjemahan, ringkasan, chatbot, dll.

Digunakan untuk pengolahan data berbasis gambar:

Deteksi wajah.
Klasifikasi objek dalam gambar.

🚀 Dampaknya?

Sejak paper ini terbit, muncul banyak model hebat yang memakai Transformer:

BERT – memahami makna kalimat.
GPT (termasuk ChatGPT) – menghasilkan teks seperti manusia.
T5, XLNet, RoBERTa, dll.

Bahkan di luar teks, Transformer juga dipakai untuk gambar (Vision Transformer / ViT) dan musik.

Huzefril