Halo viewers,
kali ini saya akan membahas tentang teknologi speech recognition, mungkin sebagian
dari kalian sudah banyak yang mengetahui teknologi yang satu ini. Nah bagi
viewers yang belum mengetahuinya, silahkan
dibaca post saya ini ya.
Sekilas Tentang Speech Recognition
Apa sih speech recognition itu ?
Itu loh yang biasanya ada di
smartphone. Kalau saya tanya pertanyaan diatas ke teman-teman saya, hampir
semuanya menjawab seperti itu. Memang speech recognition banyak di
implementasikan dengan perangkat pintar dan merupakan salah satu fitur yang
dibenamkan di setiap smartphone, baik itu pada Android, IOS, dan pada OS
lainnya. Tidak hanya pada smartphone namun fitur ini juga banyak dipakai di mobil
masa kini, contohnya adalah Ford yang menggunakan fitur SYNC™ agar memudahkan
pengemudi hanya dengan memerintahnya kemudian aplikasi ini akan menjalankan
perintah tersebut, jadi pengemudi bisa tetap fokus menyetir. Untuk lebih
jelasnya mengenai Speech recognition kalian bisa baca artikel ini.
Pengenalan Ucapan
Pengenalan ucapan atau pengenalan
wicara dalam istilah bahasa Inggrisnya, automatic speech recognition (ASR) adalah
suatu pengembangan teknik dan sistem yang memungkinkan komputer untuk menerima
masukan berupa kata yang diucapkan. Teknologi ini memungkinkan suatu perangkat
untuk mengenali dan memahami kata-kata yang diucapkan dengan cara digitalisasi
kata dan mencocokkan sinyal digital tersebut dengan suatu pola tertentu yang
tersimpan dalam suatu perangkat. Kata-kata yang diucapkan diubah bentuknya
menjadi sinyal digital dengan cara mengubah gelombang suara menjadi sekumpulan
angka yang kemudian disesuaikan dengan kode-kode tertentu untuk
mengidentifikasikan kata-kata tersebut. Hasil dari identifikasi kata yang
diucapkan dapat ditampilkan dalam bentuk tulisan atau dapat dibaca oleh perangkat
teknologi sebagai sebuah komando untuk melakukan suatu pekerjaan, misalnya
penekanan tombol pada telepon genggam yang dilakukan secara otomatis dengan
komando suara.
Alat pengenal ucapan, yang sering
disebut dengan speech recognizer, membutuhkan sampel kata sebenarnya yang
diucapkan dari pengguna. Sampel kata akan didigitalisasi, disimpan dalam
komputer, dan kemudian digunakan sebagai basis data dalam mencocokkan kata yang
diucapkan selanjutnya. Sebagian besar alat pengenal ucapan sifatnya masih tergantung
kepada pembicara. Alat ini hanya dapat mengenal kata yang diucapkan dari satu
atau dua orang saja dan hanya bisa mengenal kata-kata terpisah, yaitu kata-kata
yang dalam penyampaiannya terdapat jeda antar kata. Hanya sebagian kecil dari
peralatan yang menggunakan teknologi ini yang sifatnya tidak tergantung pada
pembicara. Alat ini sudah dapat mengenal kata yang diucapkan oleh banyak orang
dan juga dapat mengenal kata-kata kontinu, atau kata-kata yang dalam
penyampaiannya tidak terdapat jeda antar kata.
Pengenalan ucapan dalam
perkembangan teknologinya merupakan bagian dari pengenalan suara (proses
identifikasi seseorang berdasarkan suaranya). Pengenalan suara sendiri terbagi
menjadi dua, yaitu pengenalan pembicara (identifikasi suara berdasarkan orang yang
berbicara) dan pengenalan ucapan (identifikasi suara berdasarkan kata yang
diucapkan).
Perkembangan alat pengenal ucapan
Sejak tahun 1940, perusahaan
American Telephone and Telegraph Company (AT&T) sudah mulai mengembangkan
suatu perangkat teknologi yang dapat mengidentifikasi kata yang diucapkan
manusia. Sekitar tahun 1960-an, para peneliti dari perusahaan tersebut sudah berhasil
membuat suatu perangkat yang dapat mengidentifikasi kata-kata terpisah dan pada
tahun 1970-an mereka berhasil membuat perangkat yang dapat mengidentifikasi
kata-kata kontinu. Alat pengenal ucapan kemudian menjadi sangat fungsional
sejak tahun 1980-an dan masih dikembangkan dan terus ditingkatkan
keefektifannya hingga sekarang.
Jenis-jenis pengenalan ucapan
Berdasarkan kemampuan dalam
mengenal kata yang diucapkan, terdapat 5 jenis pengenalan kata, yaitu :
- Kata-kata yang terisolasi
Proses pengidentifikasian kata
yang hanya dapat mengenal kata yang diucapkan jika kata tersebut memiliki jeda
waktu pengucapan antar kata.
- Kata-kata yang berhubungan
Proses pengidentifikasian kata
yang mirip dengan kata-kata terisolasi, namun membutuhkan jeda waktu pengucapan
antar kata yang lebih singkat.
- Kata-kata yang berkelanjutan
Proses pengidentifikasian kata
yang sudah lebih maju karena dapat mengenal kata-kata yang diucapkan secara
berkesinambungan dengan jeda waktu yang sangat sedikit atau tanpa jeda waktu.
Proses pengenalan suara ini sangat rumit karena membutuhkan metode khusus untuk
membedakan kata-kata yang diucapkan tanpa jeda waktu. Pengguna perangkat ini
dapat mengucapkan kata-kata secara natural.
- Kata-kata spontan
Proses pengidentifikasian kata
yang dapat mengenal kata-kata yang diucapkan secara spontan tanpa jeda waktu
antar kata.
- Verifikasi atau identifikasi
suara
Proses pengidentifikasian kata
yang tidak hanya mampu mengenal kata, namun juga mengidentifikasi siapa yang
berbicara.
Proses pengidentifikasian kata yang hanya dapat mengenal kata yang diucapkan jika kata tersebut memiliki jeda waktu pengucapan antar kata.
Proses pengidentifikasian kata yang mirip dengan kata-kata terisolasi, namun membutuhkan jeda waktu pengucapan antar kata yang lebih singkat.
Proses pengidentifikasian kata yang sudah lebih maju karena dapat mengenal kata-kata yang diucapkan secara berkesinambungan dengan jeda waktu yang sangat sedikit atau tanpa jeda waktu. Proses pengenalan suara ini sangat rumit karena membutuhkan metode khusus untuk membedakan kata-kata yang diucapkan tanpa jeda waktu. Pengguna perangkat ini dapat mengucapkan kata-kata secara natural.
Proses pengidentifikasian kata yang dapat mengenal kata-kata yang diucapkan secara spontan tanpa jeda waktu antar kata.
Proses pengidentifikasian kata yang tidak hanya mampu mengenal kata, namun juga mengidentifikasi siapa yang berbicara.
Proses kerja alat pengenal ucapan
Alat pengenal ucapan memiliki beberapa tahapan dalam prosesnya, yaitu :
Tahap penerimaan masukan
Masukan berupa kata-kata yang
diucapkan lewat pengeras suara.
Tahap ekstraksi
Tahap ini adalah tahap penyimpanaan
masukan yang berupa suara sekaligus pembuatan basis data sebagai pola. Proses
ekstraksi dilakukan berdasarkan metode Model Markov Tersembunyi atau Hidden
Markov Model (HMM), yang merupakan model statistik dari sebuah sistem yang
diasumsikan oleh Markov sebagai suatu proses dengan parameter yang tidak
diketahui. Tantangan dalam model statistik ini adalah menentukan
parameter-parameter tersembunyi dari parameter yang dapat diamati.
Parameter-parameter yang telah kita tentukan kemudian digunakan untuk analisis
yang lebih jauh pada proses pengenalan kata yang diucapkan. Berdasarkan HMM,
proses pengenalan ucapan secara umum menghasilkan keluaran yang dapat
dikarakterisasikan sebagai sinyal. Sinyal dapat bersifat diskrit (karakter
dalam abjad) maupun kontinu (pengukuran temperatur, alunan musik). Sinyal dapat
pula bersifat stabil (nilai statistiknya tidak berubah terhadap waktu) maupun
nonstabil (nilai sinyal berubah-ubah terhadap waktu). Dengan melakukan
pemodelan terhadap sinyal secara benar, dapat dilakukan simulasi terhadap
masukan dan pelatihan sebanyak mungkin melalui proses simulasi tersebut
sehingga model dapat diterapkan dalam sistem prediksi, sistem pengenalan,
maupun sistem identifikasi. Secara garis besar model sinyal dapat dikategorikan
menjadi dua golongan, yaitu: model deterministik dan model statistikal. Model
deterministik menggunakan nilai-nilai properti dari sebuah sinyal seperti:
amplitudo, frekuensi, dan fase dari gelombang sinus. Model statistikal
menggunakan nilai-nilai statistik dari sebuah sinyal seperti: proses Gaussian,
proses Poisson, proses Markov, dan proses Markov Tersembunyi. Suatu model HMM
secara umum memiliki unsur-unsur sebagai berikut:
N, yaitu jumlah bagian dalam
model. Secara umum bagian tersebut saling terhubung satu dengan yang lain, dan
suatu bagian bisa mencapai semua bagian yang lain, serta sebaliknya (disebut
dengan model ergodik). Namun hal tersebut tidak mutlak karena terdapat kondisi
lain dimana suatu bagian hanya bisa berputar ke diri sendiri dan berpindah ke satu
bagian berikutnya. Hal ini bergantung pada implementasi dari model.
M, yaitu jumlah simbol observasi
secara unik pada tiap bagiannya, misalnya: karakter dalam abjad, dimana bagian
diartikan sebagai huruf dalam kata.
Probabilita Perpindahan Bagian {
} = ij A a
Probabilita Simbol Observasi pada
bagian j, { } () = j Bb k
Inisial Distribusi Bagian i p p
Setelah memberikan nilai N, M, A,
B, dan p , maka proses ekstraksi dapat diurutkan. Berikut adalah tahapan
ekstraksi pengenalan ucapan berdasarkan HMM :
Tahap ekstraksi tampilan
Penyaringan sinyal suara dan
pengubahan sinyal suara analog ke digital.
Tahap tugas pemodelan
Pembuatan suatu model HMM dari
data-data yang berupa sampel ucapan sebuah kata yang sudah berupa data digital.
Tahap sistem pengenalan HMM
Penemuan parameter-parameter yang
dapat merepresentasikan sinyal suara untuk analisis lebih lanjut.
Tahap pembandingan
Tahap ini merupakan tahap
pencocokan data baru dengan data suara (pencocokan tata bahasa) pada pola.
Tahap ini dimulai dengan proses konversi sinyal suara digital hasil dari proses
ekstraksi ke dalam bentuk spektrum suara yang akan dianalisa dengan
membandingkannya dengan pola suara pada basis data. Sebelumnya, data suara
masukan dipilah-pilah dan diproses satu per satu berdasarkan urutannya.
Pemilihan ini dilakukan agar proses analisis dapat dilakukan secara paralel.
Proses yang pertama kali dilakukan ialah memproses gelombang kontinu spektrum
suara ke dalam bentuk diskrit. Langkah berikutnya ialah proses kalkulasi yang
dibagi menjadi dua bagian :
- Transformasi gelombang diskrit
menjadi data yang terurut
Gelombang diskrit berbentuk masukan berukuran n yang menjadi objek yang akan dibagi pada proses konversi dengan cara pembagian rincian waktu - Menghitung frekuensi pada tiap
elemen data yang terurut
Selanjutnya tiap elemen dari data yang terurut tersebut dikonversi ke dalam bentuk bilangan biner. Data biner tersebut nantinya akan dibandingkan dengan pola data suara dan kemudian diterjemahkan sebagai keluaran yang dapat berbentuk tulisan ataupun perintah pada perangkat.
Tahap validasi identitas pengguna
Alat pengenal ucapan yang sudah
memiliki sistem verifikasi/identifikasi suara akan melakukan identifikasi orang
yang berbicara berdasarkan kata yang diucapkan setelah menerjemahkan suara
tersebut menjadi tulisan atau komando.
Aplikasi alat pengenal ucapan
Bidang komunikasi
Perintah Suara
Perintah Suara (komando suara)
adalah suatu program pada komputer yang melakukan perintah berdasarkan perintah
suara dari pengguna. Contohnya pada aplikasi Microsoft Voice yang berbasis
bahasa Inggris. Ketika pengguna mengatakan “Mulai kalkulator” dengan intonasi
dan tata bahasa yang sesuai, komputer akan segera membuka aplikasi kalkulator.
Jika komando suara yang diberikan sesuai dengan daftar perintah yang tersedia,
aplikasi akan memastikan komando suara dengan menampilkan tulisan “Apakah Anda
meminta saya untuk ‘mulai kalkulator’?”. Untuk melakukan verifikasi, pengguna
cukup mengatakan “Lakukan” dan komputer akan langsung beroperasi.
Pendiktean
Pendiktean adalah sebuah proses
mendikte yang sekarang ini banyak dimanfaatkan dalam pembuatan laporan atau
penelitian. Contohnya pada aplikasi Microsoft Dictation yang merupakan aplikasi
yang dapat menuliskan apa yang diucapkan oleh pengguna secara otomatis.
Telepon
Pada telepon, teknologi pengenal
ucapan digunakan pada proses penekanan tombol otomatis yang dapat menelpon
nomor tujuan dengan komando suara.
Bidang kesehatan
Alat pengenal ucapan banyak
digunakan dalam bidang kesehatan untuk membantu para penyandang cacat dalam
beraktivitas. Contohnya pada aplikasi Antarmuka Suara Pengguna atau Voice User
Interface (VUI) yang menggunakan teknologi pengenal ucapan dimana pengendalian
saklar lampu misalnya, tidak perlu dilakukan secara manual dengan menggerakkan
saklar tetapi cukup dengan mengeluarkan perintah dalam bentuk ucapan sebagai
saklarnya. Metode ini membantu manusia yang secara fisik tidak dapat
menggerakkan saklar karena cacat pada tangan misalnya. Penerapan VUI ini tidak
hanya untuk lampu saja tapi bisa juga untuk aplikasi-aplikasi kontrol yang
lain.
Bidang militer
Pelatihan Penerbangan
Aplikasi alat pengenal ucapan
dalam bidang militer adalah pada pengatur lalu-lintas udara atau yang dikenal
dengan Air Traffic Controllers (ATC) yang dipakai oleh para pilot untuk
mendapatkan keterangan mengenai keadaan lalu-lintas udara seperti radar, cuaca,
dan navigasi. Alat pengenal ucapan digunakan sebagai pengganti operator yang
memberikan informasi kepada pilot dengan cara berdialog.
Helikopter
Aplikasi alat pengenal ucapan
pada helikopter digunakan untuk berkomunikasi lewat radio dan menyesuaikan
sistem navigasi. Alat ini sangat diperlukan pada helikopter karena ketika
terbang, sangat banyak gangguan yang akan menyulitkan pilot bila harus
berkomunikasi dan menyesuaikan navigasi dengan terlebih dahulu memencet tombol
tertentu.
Kelebihan alat pengenal ucapan
Kelebihan dari peralatan yang
menggunakan teknologi ini adalah :
- Cepat
Teknologi ini mempercepat transmisi informasi dan umpan balik dari transmisi tersebut. Contohnya pada komando suara. Hanya dalam selang waktu sekitar satu atau dua detik setelah kita mengkomandokan perintah melalui suara, komputer sudah memberi umpan balik atas komando kita. - Mudah digunakan
Kemudahan teknologi ini juga dapat dilihat dalam aplikasi komando suara. Komando yang biasanya kita masukkan ke dalam komputer dengan menggunakan tetikus atau papan ketik kini dapat dengan mudahnya kita lakukan tanpa perangkat keras, yakni dengan komando suara.
Kekurangan alat pengenal ucapan
Kekurangan dari peralatan yang
menggunakan teknologi ini adalah :
- Rawan terhadap gangguanHal ini disebabkan oleh proses sinyal suara yang masih berbasis frekuensi. Ketika sebuah informasi dalam sinyal suara mempunyai komponen frekuensi yang sama banyaknya dengan komponen frekuensi gangguannya, akan sulit untuk memisahkan gangguan dari sinyal suara
- Jumlah kata yang dapat dikenal
terbatas
Hal ini disebabkan pengenal ucapan bekerja dengan cara mencari kemiripan dengan basis data yang dimiliki.
Oke, sekian post saya kali ini. Semoga bermanfaat bagi kalian semua.
Referensi :
https://id.wikipedia.org/wiki/Pengenalan_ucapan