Mengukur Berapa Duplikasi dari Pasangan Kata: Analisis Bigram dalam Teks Digital

Pertanyaan mengenai berapa duplikasi dari pasangan kata dalam sebuah korpus teks merupakan inti dari berbagai disiplin ilmu, mulai dari linguistik komputasi, pemrosesan bahasa alami (NLP), hingga optimasi konten digital. Duplikasi pasangan kata, yang secara teknis sering disebut redundansi bigram, adalah indikator kritis yang memengaruhi kualitas, kealamian, dan efisiensi penyimpanan atau transmisi informasi. Memahami dan mengukur tingkat duplikasi ini memungkinkan pengembang sistem untuk mendeteksi pola yang tidak diinginkan, mengidentifikasi plagiarisme, atau bahkan meningkatkan kinerja model bahasa prediktif.

Artikel ini akan mengupas tuntas metodologi yang diperlukan untuk menghitung dan menganalisis duplikasi bigram. Kita akan mendalami konsep teoritis di balik bigram, teknik komputasi untuk penghitungan berskala besar, serta aplikasi praktisnya dalam lingkungan digital modern yang didominasi oleh volume data tak terbatas.

I. Konsep Dasar dan Definisi Bigram Duplikasi

Dalam konteks analisis teks, istilah 'pasangan kata' merujuk pada unit yang terdiri dari dua kata berurutan. Ini dikenal sebagai Bigram (atau 2-gram). Sementara duplikasi mengacu pada frekuensi kemunculan kembali bigram yang sama dalam rentang teks tertentu. Jika sebuah teks memiliki bigram "analisis mendalam" yang muncul sepuluh kali, maka tingkat duplikasinya untuk bigram tersebut tinggi, menunjukkan redundansi. Pengukuran ini bukanlah sekadar hitungan kata, melainkan analisis struktural dari aliran narasi.

1. Tokenisasi dan Pembentukan Bigram

Proses awal dalam menghitung duplikasi adalah Tokenisasi, yaitu pemisahan teks menjadi unit-unit diskrit (token, biasanya kata). Setelah tokenisasi, bigram dibentuk dengan menggabungkan setiap dua token yang berdekatan. Misalnya, kalimat "Analisis bigram adalah kunci untuk kualitas teks." akan dipecah menjadi bigram: (Analisis, bigram), (bigram, adalah), (adalah, kunci), (kunci, untuk), (untuk, kualitas), (kualitas, teks). Duplikasi terjadi ketika pasangan yang sama ini muncul lagi di bagian lain dari teks.

Penting untuk dicatat bahwa sebelum tokenisasi, langkah prapemrosesan seperti normalisasi (mengubah semua huruf menjadi huruf kecil), penghilangan tanda baca, dan penghilangan kata penghubung (stop words) sering kali dilakukan. Namun, penghilangan stop words dapat menjadi pedang bermata dua; meskipun mengurangi volume data, hal itu menghilangkan banyak bigram fungsional yang penting untuk konteks struktural (misalnya, "pada saat" atau "di mana").

2. Mengapa Redundansi Bigram Penting?

Tingkat duplikasi bigram yang terlalu tinggi dapat menjadi indikator masalah serius, terutama dalam korpus besar:

II. Metodologi Komputasi untuk Penghitungan Duplikasi Bigram

Menghitung duplikasi dalam teks berukuran puluhan hingga ratusan ribu kata memerlukan pendekatan komputasi yang efisien. Metode dasar hanya melibatkan penghitungan frekuensi, namun pada skala besar (Big Data), algoritma hashing dan struktur data khusus sangat dibutuhkan.

1. Penghitungan Frekuensi Sederhana (Tallying)

Metode paling dasar adalah menggunakan peta hash (Hash Map) atau kamus (Dictionary) untuk menyimpan setiap bigram unik sebagai kunci dan jumlah kemunculannya sebagai nilai. Setelah teks selesai diproses, kamus tersebut akan berisi semua bigram unik dan frekuensinya.

            Bigram Unik: {
                ("data", "besar"): 45,
                ("analisis", "teks"): 120,
                ("berapa", "duplikasi"): 5
            }
        

Jumlah total duplikasi dihitung dengan menjumlahkan frekuensi dari semua bigram, lalu dikurangi jumlah bigram unik. Formula dasar duplikasi (D) adalah:

$$D = \sum_{i=1}^{N} (F_i - 1)$$

Di mana $F_i$ adalah frekuensi bigram ke-$i$, dan penjumlahan hanya dilakukan jika $F_i > 1$. Metrik ini memberikan angka absolut dari bigram yang muncul lebih dari sekali.

2. Penggunaan Jaccard Index untuk Duplikasi Antar Dokumen

Ketika pertanyaan "berapa duplikasi" mengacu pada perbandingan dua dokumen (misalnya, Dokumen A dan Dokumen B), Jaccard Index adalah metrik yang dominan. Jaccard Index mengukur kesamaan antara dua set item, dalam kasus ini, set bigram unik dari kedua dokumen.

$$J(A, B) = \frac{|A \cap B|}{|A \cup B|}$$

Di sini, $|A \cap B|$ adalah jumlah bigram unik yang sama-sama dimiliki oleh A dan B (duplikasi bersama), dan $|A \cup B|$ adalah total bigram unik yang ada di A atau B. Skor Jaccard 1.0 berarti kedua dokumen identik dalam hal bigram unik mereka, sementara 0.0 berarti tidak ada kesamaan bigram sama sekali. Dalam konteks plagiarisme, nilai Jaccard yang tinggi sangat mencurigakan.

A B Bigram Duplikasi Analisis Jaccard Index

Gambar 1: Representasi Venn Diagram untuk Duplikasi Bigram (Intersection) antara dua korpus (A dan B), dasar dari perhitungan Jaccard Index.

3. Teknik Lanjutan: Hashing dan MinHash

Ketika korpus data mencapai skala petabyte (seperti yang ditangani oleh LLM), menyimpan dan membandingkan setiap bigram secara eksplisit menjadi mustahil karena kebutuhan memori dan waktu komputasi yang masif. Dalam situasi ini, teknik probabilitas digunakan, terutama Hashing dan MinHash.

A. Rolling Hash untuk Bigram

Alih-alih menyimpan string bigram ("analisis teks"), kita menyimpan nilai hash (angka unik) dari bigram tersebut. Rolling Hash (seperti Rabin-Karp) memungkinkan perhitungan hash bigram berikutnya dengan cepat dari hash bigram sebelumnya, tanpa harus memproses ulang seluruh dua kata. Ini mengurangi kompleksitas waktu dari O(N*L) menjadi O(N), di mana N adalah jumlah kata dan L adalah panjang rata-rata kata.

B. MinHash dan Locality-Sensitive Hashing (LSH)

MinHash adalah teknik yang memungkinkan kita memperkirakan Jaccard Index dengan membandingkan representasi ringkas (tanda tangan) dari set bigram. LSH kemudian menggunakan tanda tangan MinHash ini untuk mengelompokkan dokumen yang sangat mirip secara komputasi cepat. Ini adalah teknik fundamental yang digunakan platform besar untuk mendeteksi duplikasi skala masif sebelum teks dimasukkan ke dalam model pelatihan AI, memastikan korpus yang "bersih" dan bervariasi.

III. Aplikasi Praktis Pengukuran Duplikasi Bigram

Menghitung redundansi pasangan kata bukan hanya latihan akademis; ia memiliki implikasi mendalam di berbagai sektor teknologi informasi dan komunikasi.

1. Optimasi Mesin Pencari (SEO) dan Kualitas Konten

Dalam dunia SEO, bigram sering kali mewakili frasa kunci (keyword phrases). Tingkat duplikasi bigram yang ekstrem, terutama yang melibatkan kata kunci utama, dapat memicu pinalti karena dianggap sebagai keyword stuffing. Mesin pencari modern menggunakan analisis bigram untuk menilai kealamian teks.

2. Deteksi Plagiarisme dan Pelanggaran Hak Cipta

Duplikasi bigram adalah tulang punggung dari semua sistem deteksi plagiarisme (seperti Turnitin atau alat internal penerbitan). Sistem ini tidak hanya mencari kesamaan kata per kata (unigram), tetapi juga urutan kata (bigram dan trigram).

Sistem akan menghitung skor kesamaan bigram antara dokumen yang dicurigai dengan database referensi yang luas. Kemiripan yang tinggi (misalnya, Jaccard Index di atas 0.7) hampir pasti menunjukkan penyalinan langsung, bahkan jika penulis mencoba menyamarkan teks dengan mengganti beberapa kata individual (sinonim) karena urutan bigram intinya tetap terjaga.

3. Pengembangan Model Bahasa (NLP dan LLM)

Dalam pelatihan LLM, data pelatihan yang bersih sangat penting. Jika korpus pelatihan penuh dengan duplikasi bigram, model akan mengalami bias dan overfit terhadap pola tersebut. Langkah deduplikasi korpus adalah wajib. Ini mencakup:

4. Pengukuran Koherensi dan Gaya Penulisan

Bigram juga membantu mengukur koherensi dan gaya penulisan individu. Setiap penulis cenderung memiliki set bigram 'favorit' mereka. Analisis forensik teks (seperti yang digunakan dalam kasus hukum atau atribusi teks) sering menggunakan distribusi frekuensi bigram sebagai sidik jari statistik untuk menentukan kemungkinan penulis dari suatu dokumen anonim.

IV. Tantangan dalam Menghitung Duplikasi Pasangan Kata

Meskipun konsepnya terlihat sederhana (cukup hitung frekuensinya), penghitungan duplikasi bigram, terutama dalam bahasa yang kompleks seperti Bahasa Indonesia, menghadapi beberapa tantangan signifikan.

1. Infleksi dan Morfologi Bahasa Indonesia

Bahasa Indonesia adalah bahasa yang kaya akan morfem (imbuhan: me-, di-, -kan, -an). Misalnya, kata dasar "tulis" dapat menjadi "menulis", "ditulis", "tulisan", atau "menuliskan". Jika kita tidak melakukan Stemming (mengembalikan kata ke bentuk dasar) sebelum tokenisasi, sistem akan memperlakukan bigram ("sedang", "menulis") dan ("sedang", "ditulis") sebagai dua bigram unik yang berbeda, padahal secara semantik dan leksikal, keduanya memiliki akar yang sama. Penghitungan duplikasi bigram yang efektif sering kali memerlukan lapisan stemming yang kuat.

2. Skala Data yang Masif dan Batasan Memori

Korpus pelatihan untuk AI modern dapat mencakup triliunan token. Jika setiap bigram unik disimpan sebagai string, kebutuhan memorinya menjadi tidak realistis. Ini kembali menyoroti pentingnya teknik hashing dan LSH, yang harus menyeimbangkan antara kecepatan estimasi dan akurasi (mengelola risiko kolisi hash).

3. Konteks Semantik vs. Duplikasi Sintaksis

Duplikasi bigram hanya mengukur kesamaan sintaksis (urutan kata). Ini gagal menangkap duplikasi semantik. Contohnya, jika Dokumen A memiliki bigram ("pemimpin", "terbaik") dan Dokumen B memiliki bigram ("direktur", "terunggul"), secara bigram, tidak ada duplikasi. Namun, secara makna, kedua pasangan kata itu menyampaikan ide yang sangat mirip. Analisis bigram harus dilengkapi dengan analisis kesamaan vektor (Word Embeddings) untuk mendapatkan gambaran duplikasi yang lebih holistik.

V. Metrik Tingkat Lanjut: Normalisasi Duplikasi dan Entropi

Sekadar mengetahui jumlah bigram yang terduplikasi tidaklah cukup. Analisis yang mendalam membutuhkan metrik yang dinormalisasi dan dihubungkan dengan teori informasi untuk menilai seberapa 'kaya' atau 'miskin' variasi bigram dalam suatu teks.

1. Tingkat Redundansi Bigram yang Dinormalisasi

Untuk membandingkan duplikasi antar dokumen dengan panjang yang berbeda, kita perlu menormalisasi duplikasi total. Salah satu cara adalah menghitung Rasio Duplikasi Bigram (RDB):

$$RDB = \frac{\text{Jumlah Total Bigram Terduplikasi}}{\text{Total Jumlah Bigram dalam Teks}} \times 100\%$$

Jika RDB sangat tinggi (misalnya 40%), itu menunjukkan bahwa 40% dari semua bigram dalam teks adalah pengulangan dari pasangan kata yang sudah muncul sebelumnya. Angka ini memberikan gambaran yang lebih adil mengenai kualitas teks dibandingkan hanya jumlah absolut.

2. Entropi Bigram

Konsep Entropi (dari Teori Informasi Shannon) adalah metrik superior untuk menilai keragaman pasangan kata. Entropi mengukur tingkat ketidakpastian atau keragaman dalam distribusi probabilitas bigram. Semakin tinggi entropinya, semakin tidak terduplikasi bigram tersebut, dan semakin kaya variasi leksikalnya.

Dalam konteks bigram, probabilitas $P(w_i | w_{i-1})$ adalah probabilitas kata $w_i$ muncul setelah kata $w_{i-1}$. Entropi (H) dari urutan bigram mengukur seberapa sering bigram baru dan tak terduga muncul, dibandingkan dengan bigram yang sudah diprediksi atau repetitif.

Teks yang dihasilkan oleh mesin yang buruk sering memiliki entropi bigram yang rendah, karena cenderung mengulang urutan kata yang sama (duplikasi tinggi). Teks manusia yang alamiah dan bervariasi cenderung memiliki entropi bigram yang jauh lebih tinggi.

Ukuran Korpus (Kata) Kompleksitas Komputasi Bigram Tally (Non-Hash) Rolling Hash / LSH (Cepat)

Gambar 2: Perbandingan Kompleksitas Komputasi antara metode Bigram Tally sederhana dan metode Hashing yang lebih efisien dalam mengukur duplikasi pada korpus besar (N).

VI. Studi Kasus Konseptual: Deduplikasi Korpus Pelatihan LLM

Untuk memahami pentingnya pengukuran duplikasi bigram, mari kita tinjau skenario di mana sebuah perusahaan teknologi sedang menyiapkan korpus data berbahasa Indonesia yang sangat besar (lebih dari 100 miliar token) untuk melatih model bahasanya. Kegagalan dalam mengukur dan menghilangkan duplikasi bigram akan mengakibatkan kerugian finansial dan performa model yang suboptimal.

1. Fase Pengambilan dan Pra-pemrosesan Data

Data dikumpulkan dari miliaran halaman web, buku digital, dan transkrip. Pada tahap awal, duplikasi bigram diperkirakan mencapai 15% dari total bigram yang ada. Tingkat 15% ini terlalu tinggi dan mengindikasikan bahwa data mengandung banyak salinan, kutipan berulang, atau teks boilerplate (teks standar yang muncul di banyak halaman, seperti footer atau disclaimer).

2. Penerapan MinHash dan LSH

Tim data sains tidak dapat membandingkan setiap bigram secara langsung. Mereka memecah dokumen menjadi segmen-segmen yang lebih kecil (misalnya, 200 bigram per segmen). Untuk setiap segmen, mereka membuat tanda tangan MinHash (kumpulan nilai hash terkecil). Kemudian, LSH digunakan untuk mengidentifikasi "bucket" (keranjang) yang berisi segmen dengan tanda tangan MinHash yang sangat mirip (Jaccard Index diperkirakan > 0.95).

Hasil dari proses ini adalah identifikasi dokumen atau bagian dokumen yang memiliki tingkat duplikasi bigram yang sangat tinggi dengan dokumen lain. Segmen-segmen yang terduplikasi ini kemudian ditandai untuk dihapus. Proses ini mengurangi korpus data awal sebesar 8%, menghemat triliunan operasi komputasi yang seharusnya dihabiskan model untuk memproses informasi yang redundan.

3. Analisis Redundansi Bigram Internal

Setelah deduplikasi antar-dokumen, tim menganalisis redundansi internal. Mereka menemukan bahwa bigram tertentu, terutama yang umum dalam bahasa pemrograman atau sintaksis tabel (misalnya, "klik di" atau "masukkan data"), masih memiliki frekuensi yang tidak wajar. Mereka menggunakan metrik RDB dan Entropi Bigram untuk mengidentifikasi bigram yang terlalu dominan. Bigram ini tidak dihapus, melainkan diberi bobot yang lebih rendah (down-weighting) selama pelatihan model. Hal ini memastikan model belajar bahwa bigram tersebut adalah umum, tetapi tidak memberikan bobot berlebihan yang dapat mengganggu kemampuan model untuk menghasilkan teks yang kreatif dan beragam.

Melalui proses yang ketat ini, pengukuran duplikasi bigram tidak hanya menjawab pertanyaan "berapa duplikasi dari pasangan kata," tetapi juga secara langsung meningkatkan kualitas dan efisiensi model AI yang dilatih.

VII. Peran Bigram dalam Pemodelan Markov Chain dan Prediksi

Konsep duplikasi bigram memiliki akar yang kuat dalam Pemodelan Markov Chain. Model Markov Chain Orde Pertama menggunakan probabilitas bigram yang dihitung dari korpus. Duplikasi bigram secara langsung memengaruhi matriks transisi model ini.

1. Probabilitas Transisi Bigram

Model Markov memprediksi kata berikutnya ($w_i$) berdasarkan kata saat ini ($w_{i-1}$):

$$P(w_i | w_{i-1}) = \frac{\text{Count}(w_{i-1}, w_i)}{\text{Count}(w_{i-1})}$$

Jika bigram tertentu memiliki duplikasi yang sangat tinggi (Count($w_{i-1}, w_i$) tinggi), maka probabilitas transisi ini juga akan sangat tinggi. Dalam model prediktif yang sederhana, hal ini akan menyebabkan teks yang dihasilkan menjadi sangat berulang, karena model akan terus memilih jalur bigram yang paling sering muncul (yang terduplikasi paling banyak).

Contoh: Jika bigram ("sistem", "informasi") muncul 1000 kali, dan ("sistem", "komputer") muncul 10 kali, model akan hampir selalu memprediksi "informasi" setelah "sistem". Tingkat duplikasi bigram yang tidak terkontrol, oleh karena itu, secara artifisial membatasi keragaman hasil yang mungkin.

2. Smoothing dan Interpolasi untuk Duplikasi Nol

Meskipun artikel ini berfokus pada duplikasi yang tinggi, tantangan yang berlawanan juga penting: duplikasi nol (bigram yang hanya muncul sekali atau tidak pernah muncul sama sekali). Bigram dengan frekuensi nol menyebabkan masalah "data sparsity" (kekurangan data) dan membuat probabilitas prediktif menjadi nol.

Untuk mengatasi ini, teknik seperti Smoothing Laplace (Add-One Smoothing) atau Kneser-Ney Smoothing digunakan. Teknik-teknik ini secara matematis mengalokasikan sedikit probabilitas dari bigram yang sangat terduplikasi (frekuensi tinggi) ke bigram yang jarang atau tidak pernah muncul (frekuensi nol), sehingga menciptakan model yang lebih stabil dan menghasilkan teks yang lebih alami (tidak kaku dan repetitif).

VIII. Duplikasi Bigram dalam Lingkungan Multilingual

Analisis duplikasi bigram menjadi jauh lebih rumit ketika kita berhadapan dengan data multilingual, atau data yang merupakan perpaduan beberapa bahasa (Code-Switching).

1. Batasan Bahasa dan Bigram Campuran

Dalam korpus yang mencampur Bahasa Indonesia dan Inggris, bigram seperti ("data", "science") atau ("belajar", "coding") adalah hal yang umum. Jika sistem deduplikasi tidak memiliki pemahaman lintas-bahasa, bigram campuran ini dapat terdeteksi sebagai duplikasi yang tidak valid atau, sebaliknya, gagal mendeteksi redundansi karena normalisasi (stemming) hanya bekerja pada satu bahasa.

2. Normalisasi Lintas Skrip

Beberapa bahasa menggunakan skrip yang berbeda (misalnya, Latin, Arab, Cyrillic). Meskipun Bahasa Indonesia menggunakan skrip Latin, sistem yang menganalisis konten global harus memastikan bahwa bigram yang secara fonetik atau semantik identik namun ditulis dalam skrip berbeda diperhitungkan dalam penghitungan duplikasi. Kegagalan dalam normalisasi skrip menyebabkan duplikasi bigram yang tersembunyi tidak terdeteksi.

IX. Kesimpulan Mendalam dan Prospek Masa Depan

Pertanyaan "berapa duplikasi dari pasangan kata berikut ini" adalah fundamental dalam pemahaman kualitas struktural teks digital. Pengukuran duplikasi bigram melampaui statistik deskriptif sederhana; ia berfungsi sebagai diagnostik vital untuk menilai kealamian narasi, mengidentifikasi manipulasi, dan mengoptimalkan korpus data besar untuk pelatihan kecerdasan buatan.

Dari metode tallying sederhana hingga penggunaan probabilitas tingkat tinggi seperti MinHash LSH, evolusi teknik komputasi telah memungkinkan analisis duplikasi bigram dilakukan pada skala yang sebelumnya tidak mungkin tercapai. Dalam konteks masa depan yang didominasi oleh konten yang dihasilkan oleh AI (Generative AI), kemampuan untuk secara akurat mengukur dan mengelola redundansi bigram akan menjadi semakin penting.

Prospek ke depan melibatkan integrasi analisis duplikasi bigram dengan model yang lebih kompleks, seperti Transformer Models, untuk tidak hanya mendeteksi duplikasi sintaksis tetapi juga duplikasi semantik. Dengan memanfaatkan representasi vektor kata dan frasa (Embeddings), sistem di masa depan akan mampu menjawab pertanyaan duplikasi dengan presisi yang lebih tinggi: bukan hanya berapa kali pasangan kata yang sama muncul, tetapi juga berapa kali pasangan kata dengan makna yang identik muncul, meskipun susunan katanya berbeda. Ini akan memastikan bahwa ekosistem informasi digital terus berkembang dengan konten yang unik, informatif, dan bervariasi.

🏠 Homepage