Resume Artikel Ilmiah “LUMINA: Linguistic unified multimodal Indonesian natural audio-visual dataset”

 


Artikel ilmiah ini membahas tentang LUMINA, sebuah dataset audio-visual multimodal yang dirancang untuk mendukung penelitian dalam bidang persepsi bicara. LUMINA merupakan dataset unik yang menggabungkan data audio dan visual berkualitas tinggi, yang dihasilkan dari rekaman 14 penutur asli bahasa Indonesia, terdiri dari 9 laki-laki dan 5 perempuan. Setiap penutur menyumbangkan sekitar 1.000 kalimat, menghasilkan koleksi data yang sangat kaya dan beragam. Fokus utama dalam rekaman video ini adalah area wajah, khususnya untuk menangkap isyarat visual dan ekspresi yang mendukung proses bicara. Dataset ini memiliki nilai signifikan dalam mendukung penelitian terkait pengenalan dan sintesis bicara, karena menyediakan sumber daya yang berharga untuk memahami bagaimana manusia memproses bahasa lisan.

Latar belakang pengembangan LUMINA didorong oleh kebutuhan yang meningkat akan data audio-visual dalam bahasa Indonesia, terutama untuk penelitian terkait lip reading dan sintesis suara. Meskipun penelitian serupa sudah banyak dilakukan dalam bahasa lain, data dalam bahasa Indonesia masih sangat terbatas. Oleh karena itu, LUMINA dikembangkan dengan pendekatan yang memperhatikan variasi kombinasi suku kata yang sering ditemukan dalam bahasa Indonesia. Pendekatan ini penting untuk meningkatkan kinerja model pembelajaran mendalam (deep learning) yang sering digunakan dalam penelitian terkait. Dengan adanya variasi data yang kaya, diharapkan model pembelajaran mendalam yang dibangun dapat lebih efektif dan mampu menggeneralisasi data baru dengan lebih baik.

LUMINA terdiri dari klip audio-visual yang rata-rata berdurasi 3,3 detik per klip. Proses perekaman dilakukan dengan kontrol ketat terhadap posisi penutur, di mana setiap penutur duduk menghadap kamera dengan orientasi tegak lurus. Kamera yang digunakan adalah Fujifilm XT-200, yang diposisikan sejauh 80 cm dari penutur, dengan pencahayaan optimal untuk menghilangkan bayangan di area wajah. Untuk memastikan kualitas data, setiap sesi perekaman dibagi menjadi beberapa segmen selama 20 menit, guna menghindari kelelahan pada penutur yang dapat menyebabkan kesalahan dalam pengucapan. Setelah proses perekaman, data kemudian disaring secara manual untuk memastikan bahwa semua kata terdengar jelas dan gerakan bibir terlihat dengan baik.

Salah satu tantangan utama dalam pengembangan dataset ini adalah memastikan cakupan suku kata dalam bahasa Indonesia yang representatif. Meskipun total kombinasi kalimat yang dapat dibentuk mencapai 358.050, proses pemilihan dilakukan dengan hati-hati menggunakan algoritma Artificial Bee Colony untuk menyaring dan mengurangi jumlah kalimat menjadi 1.000 kalimat yang harus dibaca oleh setiap penutur. Proses ini dilakukan untuk menghindari durasi perekaman yang terlalu lama dan tetap menjaga distribusi cakupan suku kata yang merata.

Namun, LUMINA bukan tanpa keterbatasan. Dataset ini masih merupakan data mentah yang belum mengalami proses penyaringan kebisingan, sehingga penggunaannya membutuhkan proses reduksi kebisingan lebih lanjut. Selain itu, meskipun dilakukan kompresi video dengan hati-hati untuk mempertahankan kualitas, hasil akhir tetap memiliki kualitas yang lebih rendah dibandingkan dengan data asli.

Secara keseluruhan, LUMINA adalah kontribusi penting dalam pengembangan dataset audio-visual untuk bahasa Indonesia, yang diharapkan dapat mendukung berbagai penelitian dalam bidang pengenalan dan sintesis bicara. Dataset ini tersedia secara publik melalui Mendeley Data dan diharapkan dapat digunakan secara luas dalam komunitas riset untuk mendorong inovasi lebih lanjut dalam teknologi pengenalan bicara, khususnya untuk bahasa Indonesia.

Tugas PKKMB : nurul athiyyah

Komentar