تشخیص گفتار
مسئله اصلی رونویسی از گفتار بصورت اتوماتیک بوسیله هر سخنگویی و در هر محیطی است که هنوز فاصله زیادی تا عملی شدن دارد اما در سالهای اخیر تکنولوژی ASR رشد کرده تا نقطه ای که در حوزه های محدود و خاص استفاده می شود. یکی از کاربردهای اصلی آن بعنوان واسط بین انسان و رایانه است. از آنجایی که خیلی از کارهای بوسیله ارتباطات بصری بهتر حل می وند گفتار هم دارای این توانایی است که یک نوع رابط بهتر از صفحه کلید باشد مخصوصا برای کارهایی که بصورت ارتباط زبان طبیعی هستند مفید است و یا بجای آن دسته از صفحه کلیدهایی که مناسب یک کار خاص نیستند. کاربرد ASR شامل آن دسته که در آنها چشم و دست مشغول هستند نیز می شود مانند مکانهایی که کاربر مجبور است با دست عملی را انجام دهد یا تجهیزاتی را با دست کنترل نماید. ناحیه کاربردی که هم اکنون از ASR استفاده می شود در تلفن است. بعنوان مثال برای وارد کردن اعداد یا تشخیص کلمه "الو" برای پذیرش تماس یا در شماره گیری("شماره بگیر- پروفسور بدیع") قابل استفاده است. سرانجام ASR در دیکته عملی شد که عبارت است از رونویسی سخنرانی طولانی یک شخص ویژه(مثل معلم).
در این مقاله(که ترجمش رو قراره تموم کنم) توضیحاتی در مورد معماری تشخیص گفتار داده می شود و سپس به معرفی مدلهای HMM(Hidden Markov Mode)l می پردازیم. نحوه استفاده از الگوریتمهای ویتربیViterbi و*A را برای رمز گشایی کیفیت و صدای گفتار را بیان می کنیم. استفاده از قوانین گاوس و شبکه های عصبی پرسپترون چند لایه (MLP( Multi Level Perspetron برای محاسبه احتمالات صوتی را توضیح خواهیم داد.
با تشکر از دوستان گرامی. در مورد ASR اگه مطلب و مقاله دارید لطفا به این ایمیل ارسال کنید :
m_saffari2003@yahoo.co.in
