پردازش صدا و تشخیص گفتار فناوری است که امکان ورود صوت به عنوان ورودی را به سیستم می دهد. بنابراین شما می توانید با رایانه یا تلفن همراه خود صحبت کنید که این صحبت ها به عنوان ورودی برای انجام برخی اقدامات خاص مورد استفاده قرار می گیرد. کاهش زمان، حذف روش هایی مانند تایپ کردن و یا کلیک کردن ، کاربر پسندتر شدن نرم افزار و افزایش بهره وری از جمله مزایای استفاده از این روش است.
از دیگر کاربردهای پردازش صدا می توان کمک به افراد دارای معلولیت حرکتی یا ذهنی اشاره کرد که به واسطه این فن آوری می توانند ورودی از طریق صدا به سیستم بدهند و یا در سیستم های نظامی که سیستمی تنها به صدای یک فرد خاص واکنش نشان بدهد.
کاربردهای نرمافزار پردازش صدا
ایجاد چنین سیستمی که ان را تشخیص یا بازشناسی گفتار مینامند، در زبان فارسی، چندین سال از تحقیقات محققان اساتید و دانشجویان دانشگاههای مختلف کشور را به خود اختصاص داده است. اما جدیترین جهشی که در حدود ده سال پیش در این زمینه ایجاد شده، ایجاد دادگان گفتاری فارسی دات و یک سیستم اولیه تشخیص گفتار فارسی در مرکز هوشمند علائم بودهاست.
در ادامه و در طی یکی –دو سال اخیر مهمترین دستاورد در این تکنولوژی برای زبان فارسی، سیستمهای تشخیص است. در کاربردهایی مانند تشخیص گفتار تلفنی ، سیستم لزوما باید مستقل از گوینده باشد. در کاربردهای واقعی معمولاً سیستم را مستقل از گوینده میسازند و موقع استفاده به صدای گوینده خاصی ان را اصطلاحا تطبیق میکنند این کار در قابلیت گفتاری مجموعه افیس به کمک خواندن متون اولیه در ویزارد سیستم انجام میشود.
هر چه تعداد واژگانی که سیستم میتواند تشخیص دهد بیشتر باشد، شباهت میان کلمات بیشتر باشد و در نتیجه کارایی سیستم به علت افزایش اشتباهات کاهش پیدا میکند. از این رو در کاربردهای واقعی معمولاً فقط واژگان متناسب با کاربردهای موردنظر را انتخاب میکنند تا محدود شود. در قابلیت گفتاری افیس هم که ادعا میشود اکثر کلمات انگلیسی را دارد کارایی به شدت پایین است ولی در محصولات محدودتر این شرکت کارایی به مراتب بهتر است.
آینده پردازش صدا
گفتار کاربر میتواند پیوسته و طبیعی یا با مکث میان کلمات همراه باشد بدیهی است که حالت اول مطلوب هر کاربری است. اثر صداهای اضافی و ناخواسته در کاربردهای واقعی نرمافزارهای ocr نرمافزارهای تشخیص گفتار را در عمل دچار افت شدید کارایی مینماید در محصولات فارسی ارائه شده با رویکردهای مختلفی این نقصان را تا حد زیادی جبران کردهاست.
این فناوری برای همه زبان ها به اجرا در نیامده و پیشرو ترین نرم افزارهای این حوزه زبان مرجع خود را زبان انگلیسی قرار داده اند.
علاوه بر کاربردهایی که برای فناوری های تشخیص و پردازش صدا گفته می شود می توان به کاربردهای آینده نگرانه آن نیز توجه کرد. استفاده از این فن آوری در کنار هوش مصنوعی و استفاده از آن در حوزه رباتیک و یا در آینده نه چندان دور، امکان جستجو صوت در فضای وب مانند امکان جستجو متن که در حال حاضر در موتورهای جست و جو وجود دارد می تواند باعث تغییرات اساسی در حوزه تحلیل داده شود.