KI
Kevin Iansyahkeviniansyah04@gmail.com

Berbagi Dataset Komentar YouTube Judi Online untuk Klasifikasi dan Named Entity Recognition (NER)

Artikel ini membahas dan membagikan dataset komentar YouTube berbahasa Indonesia yang difokuskan pada klasifikasi komentar judi online (judol) serta Named Entity Recognition (NER) untuk mengekstraksi kata kunci judi online. Dataset ini dirilis secara terbuka untuk kebutuhan riset, edukasi, dan pengembangan model NLP.

28 Januari 2026
284 dilihat
15 menit
Data ScienceMachine Learning
Berbagi Dataset Komentar YouTube Judi Online untuk Klasifikasi dan Named Entity Recognition (NER)

Tag

DatasetAnotasi DataBahasa IndonesiaJudi OnlineKlasifikasi TeksKomentar YouTubeNERPembelajaran MesinPemrosesan Bahasa AlamiPengenalan Entitas Bernama

Pendahuluan

Komentar spam judi online (judol) di YouTube masih menjadi permasalahan serius, terutama pada video dengan tingkat interaksi yang tinggi. Komentar-komentar ini umumnya disamarkan menggunakan bahasa santai, emoji, konteks tidak relevan, hingga penggunaan font unik, dengan tujuan mengelabui sistem moderasi otomatis.

Melalui artikel ini, saya membagikan dataset komentar YouTube berbahasa Indonesia yang saya susun untuk mendukung pengembangan dan penelitian di bidang Natural Language Processing (NLP), khususnya pada tugas-tugas berikut:

  • Klasifikasi komentar judi online

  • Named Entity Recognition (NER) untuk mengekstraksi kata kunci terkait judi online

Dataset ini dirilis secara terbuka agar dapat dimanfaatkan oleh peneliti, mahasiswa, maupun praktisi machine learning.


Dataset Klasifikasi Komentar Judol

Dataset utama difokuskan pada tugas klasifikasi biner komentar YouTube untuk membedakan komentar judi online dan non-judi.

Spesifikasi Dataset

  • Total data: 22.266 komentar

  • Jumlah label: 2

  • Distribusi label (seimbang):

    • 0 β†’ Non-Judol: 11.133 komentar

    • 1 β†’ Judol: 11.133 komentar

Distribusi data yang seimbang ini bertujuan untuk meminimalkan bias model selama proses pelatihan (training).


Label 0 β€” Non-Judol

Label ini merepresentasikan komentar normal yang tidak mengandung unsur promosi judi online.

Contoh data label 0:

[
  {
    "comment_id": "UgxmOcACQcI3So3dFz94AaABAg",
    "text": "Uda min jangan di gembar gemborkan noh rapale india rontok di rudal j10",
    "label": 0,
    "source": "Video: XNVnzxw6jDM",
    "timestamp": "2025-08-13T14:56:26Z",
    "is_reply": false,
    "user_metadata": {
      "username": "@pratamaprakoso9429",
      "user_id": "UCsDZJVy58hdLotcR3ixxgBQ",
      "profile_url": "https://yt3.ggpht.com/ytc/AIdro_nguhCS10AuuqFmsTvvIDQLQm_gSWE1hQ5Q9UEt_Ck=s48-c-k-c0x00ffffff-no-rj"
    }
  }
]

Label 1 β€” Judol

Label ini mencakup komentar yang mengandung promosi judi online, baik secara eksplisit maupun terselubung, antara lain:

  • Penyebutan nama situs atau brand judol

  • Penggunaan istilah khas judi online (gacir, cuan, maxwin, dll)

  • Pemanfaatan font unik dan emoji untuk menghindari filter

Contoh data label 1:

[
  {
    "comment_id": "Ugyg2TlHSJoLYp7Iafh4AaABAg",
    "text": "Asli ini video lucu banget wkwk, ketawa sambil buka ππˆππ†πŠπ€πˆπŸ’πƒ, ini sih wajib trending! πŸš€",
    "label": 1,
    "source": "Video: 5d2BcVL7B5Y",
    "timestamp": "2025-07-22T06:38:18Z",
    "user_metadata": {
      "username": "@BisniskuLancar",
      "user_id": "UCMv9J7NOJ_Zx4alBOAlfH9w",
      "profile_url": "https://yt3.ggpht.com/ytc/AIdro_nSY3SKVIB-lh59yGyZKnSBMStdyKAx-ey6Y__AoaVIck-hLXmMGqnd_XiRQfZveTs5Jg=s48-c-k-c0x00ffffff-no-rj"
    },
    "status": "dataset"
  }
]

Dataset NER (Named Entity Recognition) Judol

Selain klasifikasi, dataset ini juga dikembangkan menjadi dataset NER untuk mengekstraksi kata atau frasa penting yang berkaitan dengan judi online.

Sumber Dataset NER

  • Berasal dari seluruh data label 1 (Judol)

  • Total data NER: 11.133 komentar

  • Setiap komentar dianotasi secara manual untuk menandai entitas terkait judi online


Format Dataset NER

Dataset NER memiliki atribut tambahan berupa keywords, yang berisi daftar entitas hasil anotasi.

Contoh data NER:

[
  {
    "comment_id": "UgznMA1W-gjzturXKLp4AaABAg",
    "text": "Coba-coba main dan ternyata rezeki datang, langsung gacir di π€π™‚π™π™ŽTπ˜–π“O!",
    "label": 1,
    "source": "Video: pghHrq1ZUvI",
    "timestamp": "2025-03-09T14:23:59Z",
    "is_reply": false,
    "user_metadata": {
      "username": "@Awendllcneo",
      "user_id": "UC_RRZFrXs3l_AjIR_yedq7A",
      "profile_url": "https://yt3.ggpht.com/ytc/AIdro_njMp9P5pDrqRaj4oHRodXslSma01EB2tIA4mBbGR7rDJoi92M1smujcI3N84wSKYdkGA=s48-c-k-c0x00ffffff-no-rj"
    },
    "keywords": [
      {
        "word": "gacir",
        "type": "general_term"
      },
      {
        "word": "π€π™‚π™π™ŽTπ˜–π“O",
        "type": "site_name"
      }
    ]
  }
]

Jenis Entitas

Beberapa tipe entitas yang digunakan dalam anotasi NER antara lain:

  • site_name β†’ Nama situs atau brand judi online

  • general_term β†’ Istilah umum judi online (gacir, cuan, maxwin, dll)

Struktur entitas ini masih terbuka untuk dikembangkan sesuai kebutuhan penelitian lanjutan.


Akses Dataset

Seluruh dataset (klasifikasi dan NER) dapat diakses secara publik melalui GitHub:

πŸ‘‰ GitHub Repository
https://github.com/KevinIansyah/dataset-komentar-youtube.git

Dataset ini bebas digunakan untuk keperluan riset, pembelajaran, dan pengembangan sistem moderasi komentar.


Lisensi

Dataset ini dirilis secara terbuka untuk mendukung kegiatan riset, pendidikan, dan pengembangan teknologi, khususnya di bidang Natural Language Processing (NLP) dan sistem moderasi konten.

Dataset ini dilisensikan di bawah:

Creative Commons Attribution–NonCommercial 4.0 International (CC BY-NC 4.0)

Dengan lisensi ini, pengguna diperbolehkan untuk:

  • Menggunakan dataset untuk keperluan penelitian dan pembelajaran

  • Melatih, mengevaluasi, serta mengembangkan model machine learning dan NLP

  • Mengadaptasi dan memodifikasi dataset untuk eksperimen non-komersial

  • Mengutip dataset ini dalam publikasi ilmiah dengan mencantumkan atribusi yang sesuai

Pengguna tidak diperbolehkan untuk:

  • Menggunakan dataset ini untuk tujuan komersial dalam bentuk apa pun

  • Menjual ulang dataset, baik sebagian maupun seluruhnya

  • Menggunakan dataset secara langsung sebagai bagian dari produk atau layanan berbayar

Atribusi yang disarankan:

Dataset Komentar YouTube Judi Online (Judol) – Kevin Iansyah
https://github.com/KevinIansyah/dataset-komentar-youtube


Penutup

Saya berharap dataset ini dapat menjadi kontribusi kecil bagi pengembangan dataset NLP bahasa Indonesia, khususnya dalam menangani permasalahan spam dan judi online di platform digital.

Masukan, diskusi, dan peluang kolaborasi sangat terbuka.