Linguistik Komputasi (LK), sering juga disebut Pemrosesan Bahasa Alami (Natural Language Processing - NLP), adalah bidang interdisipliner yang menggabungkan ilmu komputer, kecerdasan buatan, dan linguistik. Intinya, LK berupaya mengajarkan komputer untuk memahami, menginterpretasikan, dan menghasilkan bahasa manusia, baik dalam bentuk teks maupun suara. Ini merupakan jembatan esensial yang memungkinkan interaksi yang bermakna antara manusia dan mesin, menjadi fondasi bagi teknologi AI modern yang kita gunakan setiap hari.
Kekuatan Linguistik Komputasi terletak pada penggabungan dua disiplin ilmu yang secara tradisional terpisah. Dari sisi linguistik, LK memanfaatkan pemahaman mendalam tentang struktur bahasa—fonologi (bunyi), morfologi (struktur kata), sintaksis (struktur kalimat), semantik (makna), dan pragmatik (penggunaan dalam konteks). Sementara itu, dari sisi komputasi, LK mengadopsi algoritma, struktur data, dan teknik pembelajaran mesin untuk memodelkan dan memproses kerumitan linguistik tersebut dalam skala besar.
Bahasa manusia adalah aset data non-terstruktur yang paling kaya dan kompleks di dunia. Tanpa kemampuan memahami bahasa, komputer hanya dapat memproses data yang sudah terstruktur (angka, basis data). Tujuan LK adalah mengubah kekacauan data linguistik yang tidak terstruktur ini menjadi representasi yang dapat diolah secara matematis, memungkinkan aplikasi seperti mesin penerjemah, asisten virtual, dan alat analisis sentimen.
Akar LK dapat ditelusuri kembali ke periode setelah Perang Dunia II, didorong oleh kebutuhan mendesak akan terjemahan otomatis (Machine Translation - MT) untuk dokumen militer dan intelijen. Perkembangan utama dibagi menjadi beberapa era:
Meskipun kemajuan luar biasa telah dicapai, bahasa alami menyajikan serangkaian tantangan yang unik dan sulit untuk ditangani oleh mesin. Ambiguitas adalah tantangan terbesar, hadir dalam berbagai lapisan linguistik:
Ambiguitas leksikal terjadi ketika sebuah kata memiliki lebih dari satu makna (misalnya, kata "bank" bisa berarti lembaga keuangan atau tepi sungai). Ambiguitas morfologi muncul dalam bahasa inflektif, di mana bentuk kata yang sama bisa memiliki fungsi tata bahasa yang berbeda.
Ini terjadi ketika sebuah kalimat dapat dipilah (parsed) dengan lebih dari satu cara. Contoh klasik dalam bahasa Inggris adalah: "Saya melihat pria itu dengan teropong." (Apakah saya menggunakan teropong, atau apakah pria itu yang memiliki teropong?). Sistem LK harus mampu menentukan struktur sintaksis yang paling mungkin berdasarkan konteks.
Memahami makna yang sebenarnya (semantik) membutuhkan pengetahuan dunia. Selain itu, melacak referensi (misalnya, pronomina "dia" merujuk pada subjek mana dalam paragraf sebelumnya) adalah tugas yang disebut Coreference Resolution, yang menuntut pemodelan konteks yang luas.
Agar komputer dapat bekerja dengan bahasa, bahasa harus diubah menjadi format numerik atau struktural yang dapat dihitung. Bagian ini membahas teori linguistik formal dan metode representasi data yang mendasari semua model LK.
Linguistik Komputasi sangat bergantung pada Teori Bahasa Formal, yang dipelopori oleh Noam Chomsky. Hierarki Chomsky mengklasifikasikan tata bahasa berdasarkan daya komputasi yang diperlukan untuk memprosesnya:
FSA sangat efektif dalam memodelkan morfologi bahasa. Mesin ini dapat merepresentasikan bagaimana morfem (unit makna terkecil) digabungkan untuk membentuk kata. Misalnya, untuk bahasa Indonesia, FSA dapat memodelkan proses afiksasi (imbuhan 'me-', 'ber-', 'kan') dan menghasilkan daftar bentuk kata yang valid dari sebuah akar kata.
Di era statistik dan mendalam, kata-kata tidak lagi direpresentasikan sebagai simbol diskrit (seperti dalam era aturan), melainkan sebagai vektor numerik berdimensi tinggi. Vektor kata ini—disebut Word Embeddings—berhasil menangkap makna dan hubungan semantik antar kata berdasarkan konteks kemunculannya dalam korpus data yang besar.
Model Word2Vec (dibuat oleh Google) menunjukkan bahwa operasi aritmatika dapat dilakukan pada vektor kata (misalnya, Vektor("Raja") - Vektor("Pria") + Vektor("Wanita") ≈ Vektor("Ratu")). Ini adalah bukti pertama bahwa model dapat belajar representasi semantik. GloVe (Global Vectors for Word Representation) menyempurnakan pendekatan ini dengan menggabungkan informasi statistik frekuensi kata global.
Word2Vec dan GloVe bersifat statis (kata yang sama selalu memiliki vektor yang sama, terlepas dari konteksnya). Hal ini gagal mengatasi ambiguitas leksikal. Revolusi yang sesungguhnya datang dengan model seperti ELMo, dan kemudian Transformer, yang menghasilkan contextualized embeddings. Artinya, vektor kata untuk "bank" dalam konteks "uang" akan berbeda dari vektor "bank" dalam konteks "sungai".
Sebelum dominasi pembelajaran mendalam, model-model statistik ini menjadi inti dari NLP. Mereka menawarkan landasan yang kuat dalam formalisasi ambiguitas melalui probabilitas.
Model N-Gram menghitung probabilitas urutan kata (misalnya, probabilitas kata $W_i$ diberikan $W_{i-1}$, $W_{i-2}$). Ini adalah fondasi sederhana namun efektif untuk tugas seperti prediksi kata, dan masih relevan dalam konteks pemodelan bahasa yang sangat cepat dan ringan.
HMM sangat penting untuk pemodelan urutan, terutama dalam Part-of-Speech (POS) Tagging. HMM mengasumsikan bahwa ada 'keadaan tersembunyi' (misalnya, tag POS) yang memengaruhi 'observasi' (kata-kata aktual). Algoritma Viterbi digunakan untuk menemukan urutan keadaan tersembunyi yang paling mungkin yang menghasilkan urutan kata yang diberikan.
Pemrosesan bahasa biasanya melibatkan serangkaian langkah yang berurutan, dari tingkat tekstual paling rendah hingga interpretasi semantik paling tinggi. Setiap langkah di bawah ini adalah sub-bidang utama dalam Linguistik Komputasi.
Tahap pertama adalah memecah teks mentah menjadi unit yang dapat diolah oleh mesin.
Tokenisasi adalah proses membagi aliran teks menjadi unit diskrit, yang disebut token (biasanya kata, angka, atau tanda baca). Walaupun terdengar sederhana, tokenisasi menjadi rumit dalam bahasa yang tidak menggunakan spasi (seperti beberapa bahasa Asia) atau ketika harus menangani kontraksi, tanda hubung, atau singkatan.
Setelah tokenisasi, teks dibagi menjadi kalimat-kalimat. Normalisasi melibatkan konversi varian kata menjadi bentuk standar. Teknik kuncinya meliputi:
POS Tagging adalah proses penugasan kategori tata bahasa (kata benda, kata kerja, kata sifat, dll.) ke setiap token dalam sebuah kalimat. Ini adalah langkah krusial karena kategori tata bahasa sering kali menghilangkan ambiguitas. Misalnya, kata "ring" mungkin kata benda atau kata kerja; tag POS yang tepat membantu membedakannya.
Metode awal melibatkan HMM, sementara model modern menggunakan Conditional Random Fields (CRF) atau arsitektur jaringan saraf yang mampu mempertimbangkan konteks yang lebih luas.
NER bertujuan untuk mengidentifikasi dan mengklasifikasikan entitas dalam teks ke dalam kategori yang telah ditentukan, seperti Nama Orang, Lokasi, Organisasi, Tanggal, atau Nilai Mata Uang. NER adalah komponen penting dalam ekstraksi informasi. Kesulitan utama NER terletak pada variasi nama (misalnya, "PBB" versus "Perserikatan Bangsa-Bangsa") dan sensitivitas konteks (kata "Jakarta" mungkin merujuk pada kota atau Pemerintah Daerah Khususnya).
Parsing adalah proses menganalisis struktur tata bahasa dari kalimat, menentukannya sesuai dengan aturan formal. Ada dua pendekatan utama:
Juga dikenal sebagai phrase-structure parsing, ini memecah kalimat menjadi konstituen atau frasa (frasa kata benda, frasa kata kerja) dan merepresentasikannya dalam bentuk pohon. Tata Bahasa Bebas Konteks (CFG) adalah alat formal utama untuk parsing konstituensi.
Fokus pada hubungan (dependensi) antara kata-kata dalam kalimat. Alih-alih frasa, ini mengidentifikasi kata kepala dan kata modifikatornya. Parsing dependensi lebih fleksibel dan sangat dominan dalam implementasi NLP modern, terutama untuk bahasa dengan urutan kata yang fleksibel seperti bahasa Indonesia.
Tugas semantik adalah inti dari pemahaman bahasa sejati, bergerak melampaui struktur menuju makna.
WSD adalah proses memilih makna yang benar dari kata yang ambigu secara leksikal, berdasarkan konteksnya. Ini sering kali dicapai dengan membandingkan konteks kata target dengan definisi yang ada dalam leksikon semantik (seperti WordNet).
Bertujuan untuk menemukan struktur tematik abstrak ("topik") yang ada dalam koleksi dokumen. Algoritma seperti Latent Dirichlet Allocation (LDA) adalah metode statistik klasik untuk mengelompokkan dokumen berdasarkan distribusi probabilitas kata-kata mereka.
Mengklasifikasikan polaritas emosional dalam teks (positif, negatif, netral). Meskipun sederhana di permukaan, analisis sentimen modern harus menangani sarkasme, negasi ganda, dan perbandingan yang kompleks.
Mulai sekitar tahun 2017, arsitektur yang dikenal sebagai Transformer, dan model turunannya (BERT, GPT), mengubah total lanskap Linguistik Komputasi, mengatasi batasan-batasan model statistik dan RNN sebelumnya.
Sebelum Transformer, Recurrent Neural Networks (RNN) dan variannya (LSTM, GRU) adalah standar emas untuk data urutan karena kemampuannya memproses input langkah demi langkah, mempertahankan 'memori' dari kata-kata sebelumnya. Namun, mereka memiliki dua masalah utama:
Transformer diperkenalkan pada tahun 2017 dalam makalah "Attention Is All You Need." Arsitektur ini benar-benar meninggalkan RNN dan hanya mengandalkan mekanisme perhatian (Self-Attention Mechanism) untuk memodelkan ketergantungan antar token dalam urutan.
Mekanisme perhatian memungkinkan model untuk secara dinamis menimbang pentingnya kata-kata lain dalam kalimat ketika memproses kata tertentu. Hal ini memungkinkan model untuk menangkap hubungan jarak jauh secara instan. Karena setiap token diproses secara paralel, pelatihan Transformer menjadi jauh lebih cepat dan lebih skalabel.
Karena Transformer memproses semua token secara paralel (tidak berurutan seperti RNN), model memerlukan cara untuk mengetahui urutan kata. Inilah peran Positional Encoding, yang menyuntikkan informasi tentang posisi relatif kata ke dalam representasi vektor input.
Pendekatan modern di LK melibatkan pra-pelatihan model (pre-training) pada data teks tak berlabel dalam jumlah besar (triliunan token), diikuti oleh penyetelan halus (fine-tuning) untuk tugas spesifik. Model-model ini diklasifikasikan berdasarkan tugas pra-pelatihan mereka:
Diperkenalkan oleh Google, BERT adalah model encoder-only dan dilatih secara dua arah (bidirectional). Tugas pra-pelatihan utamanya adalah:
BERT unggul dalam tugas-tugas pemahaman bahasa (NLU) seperti klasifikasi teks, NER, dan Q&A.
Dikembangkan oleh OpenAI, GPT adalah model decoder-only. Dilatih secara auto-regresif (hanya dari kiri ke kanan), yang membuatnya sangat mahir dalam tugas generasi bahasa (NLG). Model ini memprediksi token berikutnya berdasarkan urutan token sebelumnya, menjadikannya fondasi untuk Large Language Models (LLMs) modern seperti GPT-3 dan GPT-4.
Model ini menggunakan seluruh arsitektur Transformer (Encoder dan Decoder) dan ideal untuk tugas yang mengubah satu urutan bahasa menjadi urutan bahasa lainnya, seperti Terjemahan Mesin (NMT) dan Ringkasan Teks Abstrak.
Kemajuan dalam LK telah mendorong munculnya berbagai aplikasi komersial dan penelitian yang mengubah cara kita berinteraksi dengan informasi dan teknologi.
MT adalah salah satu bidang tertua dan paling menantang dalam LK. Perkembangannya mencerminkan evolusi bidang ini secara keseluruhan:
Meskipun NMT sangat baik, ia masih berjuang dengan idiom, metafora, dan divergensi linguistik (situasi di mana terjemahan harfiah secara sintaksis tidak valid di bahasa target). Kualitas MT juga sangat dipengaruhi oleh ketersediaan data paralel berkualitas tinggi untuk pasangan bahasa tertentu.
Sistem Tanya Jawab (Question Answering - QA) memungkinkan pengguna mengajukan pertanyaan dalam bahasa alami dan menerima jawaban yang relevan, bukan hanya tautan dokumen.
Asisten virtual tidak hanya perlu memahami ucapan tunggal, tetapi juga konteks dialog multi-giliran. Dialogue State Tracking adalah tugas LK yang melacak tujuan pengguna, batasan, dan informasi yang telah disebutkan sepanjang percakapan untuk memastikan koherensi interaksi.
Bertujuan untuk mengurangi dokumen panjang menjadi versi yang lebih ringkas sambil mempertahankan poin-poin penting.
LK berinteraksi erat dengan teknologi pemrosesan sinyal suara. Ini dibagi menjadi dua sub-bidang utama:
Mengubah sinyal audio menjadi teks tertulis. Ini adalah teknologi inti di balik fitur dikte dan asisten suara. Model ASR modern menggunakan arsitektur Transformer untuk memetakan fonem suara ke token teks.
Mengubah teks tertulis menjadi suara yang terdengar alami. Fokus utama adalah membuat suara yang bukan hanya dapat dipahami, tetapi juga memiliki intonasi, ritme, dan emosi yang mirip manusia.
Menerapkan model LK yang dikembangkan di lingkungan berbahasa Inggris ke bahasa Indonesia menyajikan serangkaian tantangan dan peluang unik, terutama karena morfologi yang kaya dan sumber daya data yang relatif kurang dibandingkan bahasa mayoritas global.
Bahasa Indonesia adalah bahasa aglutinatif yang kaya, di mana kata-kata dibentuk melalui proses afiksasi yang kompleks (prefiks, sufiks, infiks, dan konfiks). Kata dasar tunggal dapat menghasilkan puluhan bentuk kata kerja yang berbeda (misalnya, 'tulis' menjadi 'menuliskan', 'ditulis', 'penulisan', 'tertulis', dll.).
Tantangan ini membuat tokenisasi dan lemmatisasi menjadi sangat penting dan kompleks. Model LK harus secara efektif memisahkan imbuhan dari akar kata tanpa menghasilkan kata non-existent.
Bahasa Indonesia sangat dinamis, dengan munculnya neologisme dan penggunaan bahasa gaul (slang) yang cepat, terutama di media sosial. Model LK untuk bahasa Indonesia harus memiliki mekanisme normalisasi yang kuat untuk memetakan varian non-standar kembali ke bentuk bakunya (misalnya, 'gimana' -> 'bagaimana').
Ketersediaan data beranotasi adalah kunci. Proyek-proyek LK di Indonesia berfokus pada pembangunan korpus beranotasi yang diperlukan untuk pelatihan model kinerja tinggi, termasuk:
Dalam beberapa tahun terakhir, komunitas riset telah mengembangkan model Transformer khusus untuk bahasa Indonesia (sering disebut IndoBERT, IndoNLG, dll.). Model-model ini dilatih dari nol (atau terus dilatih dari model multibahasa) menggunakan korpus Indonesia yang sangat besar untuk memastikan pemahaman yang mendalam tentang struktur sintaksis dan semantik lokal.
Pengembangan ini memungkinkan aplikasi hilir seperti klasifikasi berita, moderasi konten, dan analisis demografi di Indonesia mencapai akurasi yang setara dengan bahasa Inggris.
Untuk mencapai pemahaman lebih dari 5000 kata, kita perlu mendalami kerangka teknis dari beberapa model kunci, terutama dalam konteks bagaimana mereka memproses dan memetakan fitur linguistik.
Meskipun model Transformer skala besar (LLM) menawarkan kinerja yang superior, ukurannya yang masif (miliaran parameter) membatasi implementasi pada perangkat keras yang terbatas (misalnya, aplikasi mobile atau perangkat tepi).
Kuantisasi adalah proses mengurangi presisi numerik parameter model (misalnya, dari 32-bit floating point menjadi 8-bit integer). Teknik ini secara dramatis mengurangi ukuran model dan mempercepat inferensi dengan dampak minimal pada akurasi, menjadikannya kunci untuk penyebaran LLM di lingkungan produksi yang sensitif terhadap latensi.
Ini adalah teknik di mana model besar dan kompleks (model "guru") digunakan untuk melatih model yang lebih kecil dan lebih cepat (model "murid"). Model murid belajar dari probabilitas lunak (soft probabilities) yang dihasilkan oleh guru, sehingga memungkinkan model yang lebih kecil mencapai kinerja yang mendekati model besar. Contoh populer adalah DistilBERT, versi yang lebih ringan dari BERT.
Model generatif seperti GPT sangat bergantung pada beberapa teknik pemrosesan yang membuatnya menghasilkan teks yang koheren dan kreatif.
Ketika model generatif menghasilkan token berikutnya, mereka menghasilkan distribusi probabilitas atas seluruh kosakata. Untuk menghasilkan kalimat, kita memerlukan strategi pengambilan keputusan:
Linguistik Komputasi modern tidak lagi terbatas pada teks semata. Pemodelan multimodal menggabungkan bahasa dengan modalitas lain, terutama visi (gambar/video) dan suara.
Aplikasi utamanya adalah Image Captioning (menghasilkan deskripsi bahasa alami dari gambar) dan Visual Question Answering (VQA) (menjawab pertanyaan tentang konten visual). Ini memerlukan model gabungan (misalnya, CLIP atau ViT-BERT) yang mampu menciptakan ruang vektor bersama (joint embedding space) di mana teks dan gambar dapat dipetakan dan dibandingkan secara bermakna.
Model-model ini memproses bahasa manusia untuk memahami permintaan dan kemudian menggunakannya untuk menavigasi informasi visual, menunjukkan bagaimana LK menjadi elemen sentral dalam sistem Kecerdasan Buatan yang terintegrasi.
Seiring meningkatnya kemampuan sistem LK, terutama model bahasa skala besar, pertimbangan etika menjadi semakin mendesak. Model-model ini mencerminkan data yang mereka latih, yang sering kali membawa bias sosial yang tidak diinginkan.
Model yang dilatih pada korpus internet yang besar akan mewarisi stereotip yang ada dalam data tersebut. Bias dapat muncul sebagai diskriminasi gender, rasial, atau kelompok minoritas dalam tugas-tugas asosiasi kata, klasifikasi, dan generasi teks.
Upaya mitigasi melibatkan pra-pemrosesan data untuk menghilangkan asosiasi yang bias, penyesuaian model melalui adversarial training, dan evaluasi pasca-pelatihan menggunakan metrik yang dirancang untuk mendeteksi bias. Salah satu metode yang paling sering dibahas adalah Debiasing Word Embeddings, yang secara geometris 'membersihkan' dimensi bias tertentu dari vektor kata.
Kemampuan model generatif untuk menghasilkan teks yang sangat meyakinkan secara cepat telah menimbulkan kekhawatiran serius tentang penyebaran misinformasi dan konten yang menyesatkan (deepfakes tekstual). Penelitian dalam LK kini berfokus pada pengembangan alat deteksi otomatis untuk membedakan teks yang dihasilkan AI dari teks yang ditulis manusia.
LLM kontemporer telah mencapai kemampuan Few-Shot Learning (FSL), di mana model dapat melakukan tugas baru hanya dengan melihat beberapa contoh saja (bukan ribuan, seperti model tradisional). Ini dimungkinkan karena model telah mempelajari representasi pengetahuan dunia yang sangat kaya selama pra-pelatihan.
Seiring model menjadi lebih kompleks (kotak hitam), kebutuhan untuk memahami mengapa model membuat keputusan tertentu (misalnya, mengapa terjemahan menghasilkan makna tertentu) menjadi sangat penting. Penelitian XAI berfokus pada teknik visualisasi perhatian dan analisis atribusi fitur untuk memberikan transparansi pada keputusan model.
Sebagian besar bahasa dunia masih kekurangan sumber daya data yang cukup untuk melatih LLM dari awal. Arah masa depan melibatkan pengembangan teknik transfer pembelajaran yang efisien (misalnya, transfer dari bahasa tinggi-sumber daya ke bahasa rendah-sumber daya) dan pengembangan metode tanpa pengawasan (unsupervised methods) untuk memastikan bahwa teknologi LK dapat melayani semua komunitas linguistik, termasuk ribuan bahasa minoritas di Indonesia dan seluruh dunia.
Meskipun model Transformer sangat baik dalam menangkap pola statistik dan kefasihan linguistik, mereka sering kali lemah dalam penalaran logis, matematika, dan pemahaman kausalitas. Masa depan LK berupaya mengintegrasikan model bahasa dengan sistem penalaran simbolis (symbolic reasoning systems) atau modul memori eksternal (seperti pada Retrieval Augmented Generation - RAG) untuk memberikan fondasi pengetahuan dan logika yang lebih kuat, sehingga sistem AI tidak hanya terdengar fasih tetapi juga bertindak rasional.
Linguistik Komputasi terus berkembang pesat, bergerak dari alat bantu terjemahan sederhana menjadi tulang punggung revolusi kecerdasan buatan, menjanjikan era baru interaksi manusia-mesin yang lebih alami dan intuitif.
Walaupun era Transformer mendominasi, pemahaman mendalam tentang algoritma klasik sangat penting untuk pekerjaan LK, terutama dalam pemrosesan data bervolume rendah atau kebutuhan komputasi ringan.
HMM adalah model generatif statistik yang beroperasi berdasarkan asumsi Markov (probabilitas keadaan saat ini hanya bergantung pada keadaan sebelumnya). Dalam konteks POS Tagging, model ini melibatkan:
Tugas utama HMM adalah menemukan urutan tag tersembunyi yang paling mungkin (jalur terbaik) yang menghasilkan urutan kata yang diobservasi. Algoritma Viterbi adalah metode pemrograman dinamis yang secara efisien menghitung jalur probabilitas maksimum ini, menghindari perhitungan eksponensial dari semua kemungkinan urutan tag.
CRF adalah model diskriminatif yang menjadi penerus HMM, populer sebelum munculnya deep learning. Berbeda dengan HMM yang generatif, CRF tidak memodelkan distribusi gabungan data, tetapi langsung memodelkan probabilitas bersyarat urutan tag $Y$ diberikan urutan observasi $X$.
Keunggulan CRF adalah kemampuannya untuk menggabungkan banyak fitur yang saling bergantung secara global, termasuk fitur dari kata-kata masa depan dan masa lalu, serta fitur non-lokal lainnya, menjadikannya sangat kuat untuk tugas-tugas sekuens seperti NER dan POS Tagging, dan mengatasi batasan asumsi independensi yang ada pada HMM.
Untuk Constituency Parsing yang menggunakan CFG, algoritma Cocke-Kasami-Younger (CYK) adalah metode pemrograman dinamis yang menentukan apakah sebuah string dapat dihasilkan oleh CFG tertentu, dan jika ya, menghasilkan semua kemungkinan pohon parse. Algoritma ini memerlukan tata bahasa dalam bentuk normal Chomsky dan menunjukkan kompleksitas komputasi yang inheren dalam analisis sintaksis berbasis aturan.
Pemahaman semantik melampaui sekadar arti kata; ia berurusan dengan bagaimana makna berinteraksi, bagaimana representasi pengetahuan dibentuk, dan bagaimana komputer dapat melakukan penalaran dengan bahasa.
WordNet adalah basis data leksikal untuk bahasa Inggris yang telah memengaruhi pengembangan banyak sumber daya linguistik komputasi untuk bahasa lain (termasuk bahasa Indonesia). WordNet mengelompokkan kata-kata dalam synsets (kumpulan sinonim) dan mendefinisikan hubungan semantik antara synsets tersebut (misalnya, hipernimi—hubungan 'is-a', dan meronimi—hubungan 'part-of').
WordNet adalah fondasi bagi banyak tugas WSD dan ekstraksi pengetahuan awal, karena memberikan kerangka kerja terstruktur untuk memodelkan struktur hierarkis makna leksikal.
SRL adalah proses mengidentifikasi predikat (kata kerja) dalam kalimat dan mengidentifikasi serta mengklasifikasikan argumen semantik mereka (Siapa yang melakukan, Apa yang dilakukan, Kapan, Di mana, Menggunakan apa, dll.). Tugas ini mengubah kalimat menjadi representasi struktur logis yang dapat digunakan untuk penalaran. Contoh: Dalam kalimat "John makan apel di dapur.", SRL akan mengidentifikasi: Predikat: Makan; Argumen A0 (Aktor): John; Argumen A1 (Objek yang dimakan): apel; Argumen Lokasi: di dapur.
Salah satu tantangan fundamental dalam semantik adalah bagaimana makna frasa dibentuk dari makna kata-kata penyusunnya (prinsip komposisionalitas). Model vektor (embeddings) berusaha menangkap komposisionalitas ini secara implisit, namun penelitian formal (seperti Semantik Model Teoritis yang didasarkan pada logika orde pertama atau Lambda Calculus) memberikan kerangka kerja eksplisit untuk memetakan bahasa alami ke representasi logis yang dapat diolah secara matematis.
Integrasi pemodelan komposisional (menggunakan operator seperti Recursive Neural Networks) dengan representasi vektor telah menjadi fokus utama, berupaya menyatukan kekayaan model statistik dengan kepastian model simbolis.
Tujuan akhir dari banyak sistem LK adalah mengisi basis data pengetahuan (seperti Graph Knowledge atau ontologi) secara otomatis dari teks tidak terstruktur. Proses ini melibatkan serangkaian langkah, termasuk NER, Coreference Resolution, dan Relation Extraction (mengidentifikasi hubungan struktural antara entitas, seperti "lahir di," "bekerja untuk," dll.).
Keakuratan dalam ekstraksi relasi sangat penting untuk membangun fondasi kecerdasan buatan yang mampu menjawab pertanyaan kompleks dan inferensi yang membutuhkan pengetahuan fakta yang terstruktur.
Dalam Linguistik Komputasi, evaluasi yang ketat dan terstandarisasi sangat penting untuk membandingkan kinerja model. Metrik yang digunakan sangat bervariasi tergantung pada tugas spesifiknya.
Untuk tugas klasifikasi (seperti POS Tagging, NER, atau Analisis Sentimen), metrik yang umum digunakan adalah:
Untuk tugas yang melibatkan urutan teks, seperti Terjemahan Mesin dan Ringkasan Teks, metrik memerlukan perbandingan antara output yang dihasilkan model dengan referensi yang dibuat manusia.
BLEU adalah metrik standar untuk Terjemahan Mesin. Metrik ini mengukur kesamaan antara terjemahan yang dihasilkan mesin dengan satu set terjemahan referensi berkualitas tinggi. Intinya, BLEU menghitung presisi n-gram (urutan kata) dan menerapkan penalti singkat (brevity penalty) jika terjemahan terlalu pendek.
ROUGE adalah metrik yang paling umum digunakan untuk evaluasi Ringkasan Teks Otomatis. ROUGE mengukur tumpang tindih (recall) n-gram, urutan kata, atau pasangan kata antara ringkasan yang dihasilkan model dan ringkasan referensi manusia.
Metrik ini mencoba meningkatkan BLEU dengan mempertimbangkan kesamaan semantik dan morfologi (menggunakan stemming dan WordNet) dan tidak hanya kecocokan kata persis. METEOR sering dianggap memiliki korelasi yang lebih baik dengan penilaian kualitas manusia daripada BLEU.
Meskipun metrik otomatis ini penting, evaluasi LK sering kali memerlukan penilaian manusia, terutama untuk tugas generatif. Output model yang fasih secara sintaksis mungkin tetap tidak akurat secara faktual atau tidak relevan, sesuatu yang sulit ditangkap oleh metrik berbasis tumpang tindih kata. Oleh karena itu, penelitian terus berlanjut untuk menciptakan metrik otomatis yang lebih baik yang dapat mengukur kefasihan, koherensi, dan konsistensi faktual.
Salah satu perkembangan terbaru dan paling kritis dalam pemanfaatan Large Language Models (LLMs) dalam Linguistik Komputasi adalah integrasi dengan sistem pengambilan informasi, yang dikenal sebagai Retrieval Augmented Generation (RAG).
LLM murni, seperti GPT-4 atau LLaMA yang dilatih secara tradisional, memiliki dua keterbatasan utama:
RAG mengatasi batasan ini dengan menambahkan komponen pengambilan informasi ke dalam alur kerja LLM. Ketika pengguna mengajukan pertanyaan, sistem RAG pertama-tama mencari basis data pengetahuan eksternal yang besar (misalnya, dokumen perusahaan, internet waktu nyata) untuk menemukan potongan informasi (chunks) yang paling relevan.
Potongan-potongan ini kemudian dimasukkan sebagai konteks bersama dengan pertanyaan pengguna ke dalam LLM, yang kemudian bertugas menghasilkan jawaban. Ini memaksa model untuk mendasarkan jawabannya pada fakta-fakta yang diverifikasi, mengurangi halusinasi dan memastikan jawaban relevan dengan data terbaru.
Inti dari RAG adalah pencarian semantik (semantic search). Dokumen pengetahuan dipecah menjadi bagian-bagian dan dikonversi menjadi vector embeddings. Ketika pertanyaan pengguna datang, pertanyaan tersebut juga diubah menjadi vektor. Sistem kemudian menggunakan pencarian kedekatan (misalnya, menggunakan algoritma Approximate Nearest Neighbors) dalam ruang vektor untuk menemukan bagian dokumen yang paling "mirip makna" dengan pertanyaan, bahkan jika tidak ada kata kunci yang cocok persis.
RAG telah menjadi standar de facto untuk:
RAG mewakili evolusi penting dalam Linguistik Komputasi, di mana representasi bahasa (embeddings) digunakan tidak hanya untuk pemahaman, tetapi juga untuk pengambilan pengetahuan yang terintegrasi dengan penalaran generatif.
***
Penelitian dan pengembangan dalam Linguistik Komputasi telah mencapai kompleksitas dan kedalaman yang luar biasa. Dari fondasi formal automata hingga arsitektur Transformer yang mampu melakukan penalaran kompleks dan generasi bahasa yang fasih, bidang ini terus memimpin inovasi di persimpangan bahasa, data, dan kecerdasan buatan, membuka potensi tak terbatas untuk cara kita berinteraksi dengan dunia digital.