به گزارش آنی غذا محققان دانشكده مهندسی پزشكی دانشگاه صنعتی امیركبیر موفق به طراحی سامانه ای برای بكارگیری اطلاعات تصویری در بازشناسی خودكار گفتار صوتی-تصویری شدند.
به گزارش آنی غذا به نقل از ایسنا، فاطمه وخشیته، دكترای مهندسی پزشكی – گرایش بیوالكتریك از دانشگاه صنعتی امیركبیر درباره طرح خود در خصوص «طراحی سامانه طراحی بازشناسی خودكار گفتار» اظهار نمود: بهكارگیری منابع اطلاعاتی مختلف نقش مهمی در سامانههای بازشناسی گفتار دارد، بهطوری كه عملكرد مطلوب تر سامانهها میتواند در نتیجه استفاده صحیح از اطلاعات كمكی مناسب و با روشهای دقیق شود.
وی با بیان این كه این پروژه به راهنمایی دكتر فرشاد الماس گنج و مشاوره دكتر احمد نیك آبادی انجام شده است، اضافه كرد: این مورد ریشه در طبیعت ادراك در انسان دارد؛ چونكه در مغز انسان و همچون در فرآیندهای تولید و ادراك گفتار، بهطور همزمان بر روی چندین منبع اطلاعاتی پردازش صورت میپذیرد.
وی با اشاره به تحقیقات خود در زمینه بازشناسی خودكار، اظهار داشت: هدف این تحقیق بهكارگیری اطلاعات تصویری در چارچوب اطلاعات كمكی و عرضه سامانه بازشناسی خودكار گفتار صوتی-تصویری است، تا ضمن برآورده شدن طبیعت چندگونهای ادراك در انسان، از خاصیت مقاوم بودن اطلاعات تصویری در مقابل نویز صوتی هم استفاده گردد.
به قول این محقق، در بازشناسی گفتار صوتی-تصویری، هر یك از روشهای استخراج ویژگی، مدلسازی، تلفیق گونههای مختلف صوتی و تصویری و نهایتاً بازشناسی دوگونهای گفتار نقش بسزایی دارند. منظور از یك گونه، یك منبع اطلاعاتی است و ویژگیهای مستخرج در شرایط عرضه یك منبع اطلاعاتی، ویژگیهای تكگونهای نامیده میشوند.
وی با اشاره به اینكه منظور از دو گونه، دو منبع مختلف اطلاعاتی است و ویژگیهای مستخرج در شرایط فراهمشدن همزمان دو منبع اطلاعاتی، ویژگیهای دوگونهای نامیده میشوند، بیان كرد: بر این اساس در این رساله ابتدا خصوصیت های مناسب صوتی و تصویری جستجو و استخراج میشوند.
وخشیته بیان كرد: در مورد شاخه تصویری، از روش های كلاسیك و مبتنی بر شبكههای عصبی عمیق استفاده میشود و در ادامه یك روش استخراج خصوصیت تركیبی پیشنهاد میشود كه از این میان ویژگیهای تصویری هیبریدی كه در یك فرایند پیشپردازشی پیچیده استخراج می شوند، بهعنوان ویژگیهای منتخب تصویری درنظر گرفته خواهند شد.
وی در مورد روند كار با این سامانه افزود: شاخه صوتی، ویژگیهای كپسترال فركانس حوزه مل بعد از انجام مقایسهها بهعنوان ویژگیهای منتخب صوتی لحاظ می شوند؛ در ادامه، تلفیق كارآمد ویژگیهای منتخب تكگونهای دنبال میشود، بهگونهای كه باعث همافزایی دو منبع اطلاعاتی و همینطور كاهش نویز زمینه موجود در گفتار صوتی شود.
محقق طرح با اشاره به اینكه در این خصوص دو رویكرد تلفیق خصوصیت پیشنهاد می شود، تصریح كرد: در رویكرد اول، از معیار آنتروپی جهت سنجش میزان رسایی (چگونگی بازنمایی اطلاعات) ویژگیهای حاصل از منابع صوتی و تصویری استفاده میشود و تلفیق اطلاعات در سطح متوسط با انتخاب لایه صوتی با آنتروپی بیشینه و لایه تصویری با آنتروپی كمینه صورت می پذیرد. در رویكرد دوم، از شبكههای كدگذار خودكار عمیق استفاده میشود و تلفیق اطلاعات در لایه گلوگاه شبكه صورت میپذیرد. در این رویكرد یك ساختار دوگونهای پیشنهاد میشود كه طی چهار مرحله توسعه می یابد و تكمیل میشود.
وی ادامه داد: در آخرین مرحله از توسعه، با در نظر گرفتن تابع مناسب نگاشتدهنده ویژگی های گلوگاهی نویزی به تمیز و قراردادن لایه برچسبها در كنار گلوگاه شبكه، ساختاری بهدست میآید كه نسبت به سایر ساختارها از كارآمدی بالاتری برخوردار می باشد.
محقق طرح با اشاره به نتیجه تحقیقات خود اظهار داشت: خروجی رویكردها به طور كلی موفقیت عملكرد آنها را نشان میدهد و به میزان بالایی در بهبود نتایج بازشناسی گفتار موثر است.
وی افزود: در شرایط نویزی با عرضه اطلاعات صوتی به تنهایی در سامانه عمیق هیبریدیِ مبتنی بر شبكه باور عمیق و مدل مخفی ماركوف، نرخ خطای واجی ۱۸.۵ درصد را نشان داده است كه در این شرایط، با تلفیق ویژگیها بر مبنای معیار آنتروپی، نرخ خطای واجی به ۱۰.۹ درصد كاسته می شود كه این مقدار با تلفیق ویژگیها توسط شبكه كدگذار خودكار عمیق دوگونهای برابر با ۱۰.۳ درصد میشود.
وی ادامه داد: از این سامانه می توان برای افرادی كه مشكل ناشنوایی دارند، بهره برد.
وخشیته با اشاره به كاربرد این سامانه اظهار داشت: «كمك به افرادی كه اختلال تكلم دارند، به نحوی كه از اطلاعات تصویری آنها كمك گرفته و اختلال بوجود آمده در سیگنال گفتار این افراد جبران شود» كه این كاربرد در بهبود انتقال پیام در سیگنال گفتار گویندگان است؛ این یكی از كاربردهای سامانه به حساب می آید.
وی افزود: «در محیط های شلوغ كه اطلاعات صوتی گویندگان مخدوش یا نامفهوم است، از اطلاعات تصویری این افراد كمك گرفته می شود و پیغام صوتی منتقل می شود» همچون كاربردهای این سامانه است. این كاربرد در بهبود انتقال پیام برای شنوندگان است.
وخشیته اضافه كرد: اینها نمونه كاربردهای رایجی هستند كه در آنها از اطلاعات تصویری در بازشناسی خودكار گفتار استفاده می شود، اما توجیه بكارگیری شبكه های عصبی عمیق در این راستا ارتقای دقت بازشناسی گفتار تصویری (لبخوانی) و گفتار صوتی معمولی و همینطور در شرایطی است كه از اطلاعات صوتی و تصویری به صورت همزمان استفاده می شود، است.