Berbagi Dataset Komentar YouTube Judi Online untuk Klasifikasi dan Named Entity Recognition (NER)
Artikel ini membahas dan membagikan dataset komentar YouTube berbahasa Indonesia yang difokuskan pada klasifikasi komentar judi online (judol) serta Named Entity Recognition (NER) untuk mengekstraksi kata kunci judi online. Dataset ini dirilis secara terbuka untuk kebutuhan riset, edukasi, dan pengembangan model NLP.

Tag
Pendahuluan
Komentar spam judi online (judol) di YouTube masih menjadi permasalahan serius, terutama pada video dengan tingkat interaksi yang tinggi. Komentar-komentar ini umumnya disamarkan menggunakan bahasa santai, emoji, konteks tidak relevan, hingga penggunaan font unik, dengan tujuan mengelabui sistem moderasi otomatis.
Melalui artikel ini, saya membagikan dataset komentar YouTube berbahasa Indonesia yang saya susun untuk mendukung pengembangan dan penelitian di bidang Natural Language Processing (NLP), khususnya pada tugas-tugas berikut:
Klasifikasi komentar judi online
Named Entity Recognition (NER) untuk mengekstraksi kata kunci terkait judi online
Dataset ini dirilis secara terbuka agar dapat dimanfaatkan oleh peneliti, mahasiswa, maupun praktisi machine learning.
Dataset Klasifikasi Komentar Judol
Dataset utama difokuskan pada tugas klasifikasi biner komentar YouTube untuk membedakan komentar judi online dan non-judi.
Spesifikasi Dataset
Total data: 22.266 komentar
Jumlah label: 2
Distribusi label (seimbang):
0 β Non-Judol: 11.133 komentar
1 β Judol: 11.133 komentar
Distribusi data yang seimbang ini bertujuan untuk meminimalkan bias model selama proses pelatihan (training).
Label 0 β Non-Judol
Label ini merepresentasikan komentar normal yang tidak mengandung unsur promosi judi online.
Contoh data label 0:
[
{
"comment_id": "UgxmOcACQcI3So3dFz94AaABAg",
"text": "Uda min jangan di gembar gemborkan noh rapale india rontok di rudal j10",
"label": 0,
"source": "Video: XNVnzxw6jDM",
"timestamp": "2025-08-13T14:56:26Z",
"is_reply": false,
"user_metadata": {
"username": "@pratamaprakoso9429",
"user_id": "UCsDZJVy58hdLotcR3ixxgBQ",
"profile_url": "https://yt3.ggpht.com/ytc/AIdro_nguhCS10AuuqFmsTvvIDQLQm_gSWE1hQ5Q9UEt_Ck=s48-c-k-c0x00ffffff-no-rj"
}
}
]Label 1 β Judol
Label ini mencakup komentar yang mengandung promosi judi online, baik secara eksplisit maupun terselubung, antara lain:
Penyebutan nama situs atau brand judol
Penggunaan istilah khas judi online (gacir, cuan, maxwin, dll)
Pemanfaatan font unik dan emoji untuk menghindari filter
Contoh data label 1:
[
{
"comment_id": "Ugyg2TlHSJoLYp7Iafh4AaABAg",
"text": "Asli ini video lucu banget wkwk, ketawa sambil buka πππππππππ, ini sih wajib trending! π",
"label": 1,
"source": "Video: 5d2BcVL7B5Y",
"timestamp": "2025-07-22T06:38:18Z",
"user_metadata": {
"username": "@BisniskuLancar",
"user_id": "UCMv9J7NOJ_Zx4alBOAlfH9w",
"profile_url": "https://yt3.ggpht.com/ytc/AIdro_nSY3SKVIB-lh59yGyZKnSBMStdyKAx-ey6Y__AoaVIck-hLXmMGqnd_XiRQfZveTs5Jg=s48-c-k-c0x00ffffff-no-rj"
},
"status": "dataset"
}
]Dataset NER (Named Entity Recognition) Judol
Selain klasifikasi, dataset ini juga dikembangkan menjadi dataset NER untuk mengekstraksi kata atau frasa penting yang berkaitan dengan judi online.
Sumber Dataset NER
Berasal dari seluruh data label 1 (Judol)
Total data NER: 11.133 komentar
Setiap komentar dianotasi secara manual untuk menandai entitas terkait judi online
Format Dataset NER
Dataset NER memiliki atribut tambahan berupa keywords, yang berisi daftar entitas hasil anotasi.
Contoh data NER:
[
{
"comment_id": "UgznMA1W-gjzturXKLp4AaABAg",
"text": "Coba-coba main dan ternyata rezeki datang, langsung gacir di ππππTππO!",
"label": 1,
"source": "Video: pghHrq1ZUvI",
"timestamp": "2025-03-09T14:23:59Z",
"is_reply": false,
"user_metadata": {
"username": "@Awendllcneo",
"user_id": "UC_RRZFrXs3l_AjIR_yedq7A",
"profile_url": "https://yt3.ggpht.com/ytc/AIdro_njMp9P5pDrqRaj4oHRodXslSma01EB2tIA4mBbGR7rDJoi92M1smujcI3N84wSKYdkGA=s48-c-k-c0x00ffffff-no-rj"
},
"keywords": [
{
"word": "gacir",
"type": "general_term"
},
{
"word": "ππππTππO",
"type": "site_name"
}
]
}
]Jenis Entitas
Beberapa tipe entitas yang digunakan dalam anotasi NER antara lain:
site_name β Nama situs atau brand judi online
general_term β Istilah umum judi online (gacir, cuan, maxwin, dll)
Struktur entitas ini masih terbuka untuk dikembangkan sesuai kebutuhan penelitian lanjutan.
Akses Dataset
Seluruh dataset (klasifikasi dan NER) dapat diakses secara publik melalui GitHub:
π GitHub Repository
https://github.com/KevinIansyah/dataset-komentar-youtube.git
Dataset ini bebas digunakan untuk keperluan riset, pembelajaran, dan pengembangan sistem moderasi komentar.
Lisensi
Dataset ini dirilis secara terbuka untuk mendukung kegiatan riset, pendidikan, dan pengembangan teknologi, khususnya di bidang Natural Language Processing (NLP) dan sistem moderasi konten.
Dataset ini dilisensikan di bawah:
Creative Commons AttributionβNonCommercial 4.0 International (CC BY-NC 4.0)
Dengan lisensi ini, pengguna diperbolehkan untuk:
Menggunakan dataset untuk keperluan penelitian dan pembelajaran
Melatih, mengevaluasi, serta mengembangkan model machine learning dan NLP
Mengadaptasi dan memodifikasi dataset untuk eksperimen non-komersial
Mengutip dataset ini dalam publikasi ilmiah dengan mencantumkan atribusi yang sesuai
Pengguna tidak diperbolehkan untuk:
Menggunakan dataset ini untuk tujuan komersial dalam bentuk apa pun
Menjual ulang dataset, baik sebagian maupun seluruhnya
Menggunakan dataset secara langsung sebagai bagian dari produk atau layanan berbayar
Atribusi yang disarankan:
Dataset Komentar YouTube Judi Online (Judol) β Kevin Iansyah
https://github.com/KevinIansyah/dataset-komentar-youtube
Penutup
Saya berharap dataset ini dapat menjadi kontribusi kecil bagi pengembangan dataset NLP bahasa Indonesia, khususnya dalam menangani permasalahan spam dan judi online di platform digital.
Masukan, diskusi, dan peluang kolaborasi sangat terbuka.