speech recognition

speech recognition

speech recognition

speech recognition

speech recognition

Speech recognition atau pengenalan pembicaraan (juga dikenal sebagai pengenalan suara otomatis atau pengakuan komputer pidato) mengkonversi diucapkan kata-kata untuk teks. The “pengenalan suara” istilah kadang-kadang digunakan untuk merujuk kepada sistem pengakuan yang harus dilatih untuk kasus-speaker tertentu seperti untuk perangkat lunak pengenal yang paling desktop.Menyadari pembicara dapat menyederhanakan tugas menerjemahkan pidato.
pengenalan pembicaraan adalah solusi yang lebih luas yang mengacu pada teknologi yang dapat mengenali pidato tanpa ditargetkan pada pembicara tunggal seperti sistem call center yang dapat mengenali suara sewenang-wenang.
aplikasi pengenalan pembicaraan termasuk user interface seperti suara panggilan suara (misalnya, “Call home”), call routing (misalnya, “Saya ingin membuat collect call”), kontrol alat domotic, pencarian (misalnya, menemukan podcast di mana tertentu Kata-kata itu diucapkan), sederhana entri data (misalnya, memasukkan nomor kartu kredit), persiapan dokumen terstruktur (misalnya, sebuah laporan radiologi), pengolahan pidato-ke-teks (misalnya, kata prosesor atau email), dan pesawat udara (biasanya disebutInput langsung suara).

 

Sejarah
Yang Pengenal pidato pertama muncul pada tahun 1952 dan terdiri dari sebuah perangkat untuk pengakuan lisan digit tunggal [1] awal perangkat lainnya adalah IBM Kotak Sepatu, dipamerkan di Fair tahun 1964 New York. Akhir-akhir ini telah ada banyak perbaikan seperti capabilitiy massa kecepatan transkripsi tinggi pada satu sistem seperti Sonic Extractor
Salah satu domain yang paling menonjol untuk aplikasi komersial pengenalan suara di Amerika Serikat telah perawatan kesehatan dan khususnya karya transcriptionist medis (MT) [rujukan?]. Menurut para ahli industri, pada awal berdirinya, pengenalan pembicaraan (SR) yang dijual sebagai cara untuk sepenuhnya menghilangkan transkripsi daripada membuat proses transkripsi lebih efisien, maka tidak diterima. Ini juga merupakan kasus yang SR pada waktu itu sering secara teknis kurang.Selain itu, untuk digunakan secara efektif, dibutuhkan perubahan cara dokter bekerja dan didokumentasikan pertemuan klinis, yang banyak jika tidak semua enggan untuk melakukannya. Keterbatasan terbesar pidato pengakuan mengotomatisasi transkripsi, bagaimanapun, dipandang sebagai perangkat lunak. Sifat naratif dikte sangat interpretatif dan seringkali memerlukan penilaian yang dapat diberikan oleh manusia sesungguhnya tetapi belum oleh sistem otomatis. Keterbatasan lainnya telah jumlah ekstensif waktu yang diperlukan oleh pengguna dan / atau penyedia sistem untuk melatih perangkat lunak.
Perbedaan dalam ASR sering dibuat antara “sistem sintaks buatan” yang biasanya domain-spesifik dan “pemrosesan bahasa alami” yang biasanya bahasa-spesifik. Masing-masing jenis aplikasi menyajikan tujuannya sendiri tertentu dan tantangan.

 

Automatic Speech Recognition (ASR) sekarang ini telah banyak dikembangkan dalam berbagai penelitian. Terdapat bermacam-macam metode yang dapat digunakan untuk mengenali ucapan manusia. Penelitian ini akan membahas penggunaan metode Hidden Markov Model (HMM) untuk pengenalan ucapan berbahasa Indonesia. Dalam penelitian ini, digunakan HMM diskrit untuk proses pelatihan dan pengujiannya. Berdasarkan hasil pengujian dengan menggunakan metode tersebut, kemudian dianalisa faktor keberhasilannya (tingkat ketelitiannya dalam %) berdasarkan parameter-parameter Linear Predictive Coding (LPC), parameter pitch (Fo) dan parameter energi (Eo) dalam proses mengenali suatu ucapan dalam bahasa Indonesia.
Prinsip kerja sistem pengenalan ucapan adalah dengan membandingkan informasi ucapan yang ada pada referensi dengan informasi ucapan yang menjadi masukan sistem pengenal ucapan tersebut.
Blok pengenalan ucapan dengan HMM dapat dibagi menjadi tiga tahap yaitu bagian depan, tahap feature extraction dan tahap sistem pengenalan HMM. Pada tahap yang pertama dilakukan pemfilteran sinyal suara dan mengubah sinyal suara analog ke digital. Tahap feature extraction adalah untuk mendapatkan parameter-parameter yang dapat merepresentasikan sinyal suara tersebut dan dilakukan analisis serta kuantisasi vektor. Tahap yang ketiga, dapat dibagi menjadi dua tugas yaitu tugas pemodelan dan tugas pengenalan . Untuk tugas pemodelan dibuatkan suatu model HMM dari data-data yang berupa sampel ucapan dari sebuah kata. HMM yang dipakai adalah densitas diskrit.