UA-119771777-1
پردازش تصویر و ویدئوهوش مصنوعی

چرا باید پردازش صدا را بشناسیم؟

By مهر ۲۱, ۱۳۹۷ No Comments

پردازش صدا و تشخیص گفتار فناوری است که امکان ورود صوت به عنوان ورودی را به سیستم می دهد. بنابراین شما می توانید با رایانه یا تلفن همراه خود صحبت کنید که این صحبت ها به عنوان ورودی برای انجام برخی اقدامات خاص مورد استفاده قرار می گیرد. کاهش زمان، حذف روش هایی مانند تایپ کردن و یا کلیک کردن ، کاربر پسندتر شدن نرم افزار و افزایش بهره وری از جمله مزایای استفاده از این روش است.

از دیگر کاربردهای پردازش صدا می توان کمک به افراد دارای معلولیت حرکتی یا ذهنی اشاره کرد که به واسطه این فن آوری می توانند ورودی از طریق صدا به سیستم بدهند و یا در سیستم های نظامی که سیستمی تنها به صدای یک فرد خاص واکنش نشان بدهد.

کاربردهای نرم‌افزار پردازش صدا

ایجاد چنین سیستمی که ان را تشخیص یا بازشناسی گفتار می‌نامند، در زبان فارسی، چندین سال از تحقیقات محققان اساتید و دانشجویان دانشگاه‌های مختلف کشور را به خود اختصاص داده‌ است. اما جدی‌ترین جهشی که در حدود ده سال پیش در این زمینه ایجاد شده، ایجاد دادگان گفتاری فارسی دات و یک سیستم اولیه تشخیص گفتار فارسی در مرکز هوشمند علائم بوده‌است.

در ادامه و در طی یکی –دو سال اخیر مهم‌ترین دستاورد در این تکنولوژی برای زبان فارسی، سیستم‌های تشخیص است. در کاربردهایی مانند تشخیص گفتار تلفنی ، سیستم لزوما باید مستقل از گوینده باشد. در کاربردهای واقعی معمولاً سیستم را مستقل از گوینده می‌سازند و موقع استفاده به صدای گوینده خاصی ان را اصطلاحا تطبیق می‌کنند این کار در قابلیت گفتاری مجموعه افیس به کمک خواندن متون اولیه در ویزارد سیستم انجام می‌شود.

هر چه تعداد واژگانی که سیستم می‌تواند تشخیص دهد بیشتر باشد، شباهت میان کلمات بیشتر باشد و در نتیجه کارایی سیستم به علت افزایش اشتباهات کاهش پیدا می‌کند. از این رو در کاربردهای واقعی معمولاً فقط واژگان متناسب با کاربردهای موردنظر را انتخاب می‌کنند تا محدود شود. در قابلیت گفتاری افیس هم که ادعا می‌شود اکثر کلمات انگلیسی را دارد کارایی به شدت پایین است ولی در محصولات محدودتر این شرکت کارایی به مراتب بهتر است.

 

آینده پردازش صدا

گفتار کاربر می‌تواند پیوسته و طبیعی یا با مکث میان کلمات همراه باشد بدیهی است که حالت اول مطلوب هر کاربری است. اثر صداهای اضافی و ناخواسته در کاربردهای واقعی نرم‌افزارهای ocr نرم‌افزارهای تشخیص گفتار را در عمل دچار افت شدید کارایی می‌نماید در محصولات فارسی ارائه شده با رویکردهای مختلفی این نقصان را تا حد زیادی جبران کرده‌است.

این فناوری برای همه زبان ها به اجرا در نیامده و پیشرو ترین نرم افزارهای این حوزه زبان مرجع خود را زبان انگلیسی قرار داده اند.

علاوه بر کاربردهایی که برای فناوری های تشخیص و پردازش صدا گفته می شود می توان به کاربردهای آینده نگرانه آن نیز توجه کرد. استفاده از این فن آوری در کنار هوش مصنوعی و استفاده از آن در حوزه رباتیک و یا در آینده نه چندان دور، امکان جستجو صوت در فضای وب مانند امکان جستجو متن که در حال حاضر در موتورهای جست و جو وجود دارد می تواند باعث تغییرات اساسی در حوزه تحلیل داده شود.

Leave a Reply