هوش مصنوعی و یادگیری عمیق به کمک تکنیک لب خوانی می آیند

لب خوانی عملی دشوار و پیچیده است. نتایج به دست آمده از این تکنیک تفاوت های زیادی را بین افراد نشان می دهد، اما در مجموع می توان گفت شخص عادی با نگاه به چهره ...

نوشته شده توسط حمید مقدسی | ۲۱ آبان ۱۳۹۵ | ۰۸:۳۰

در دیجیاتو ثبت‌نام کنید

جهت بهره‌مندی و دسترسی به امکانات ویژه و بخش‌های مختلف در دیجیاتو عضو ویژه دیجیاتو شوید.

عضویت در دیجیاتو

تازه‌های تکنولوژی

شیائومی از Laser Projector 3 با رزولوشن 4K و صدای دالبی رونمایی کرد
30 دقیقه قبل
نگاه نزدیک به گلکسی زد فلیپ 7 پیش از معرفی رسمی [تماشا کنید]
1 ساعت قبل
مایکروسافت نمایش تبلیغات مرورگر اج در سایت رسمی کروم را متوقف کرد
2 ساعت قبل
نتایج بنچمارک گلکسی S25 FE افشا شد؛ عملکرد گرافیکی قدرتمند
3 ساعت قبل
گوگل از آیکون جدید جمینای برای اندروید و آیفون رونمایی کرد
18 ساعت قبل

لب خوانی عملی دشوار و پیچیده است. نتایج به دست آمده از این تکنیک تفاوت های زیادی را بین افراد نشان می دهد، اما در مجموع می توان گفت شخص عادی با نگاه به چهره دیگران، می تواند از هر 10 واژه یکی را به درستی حدس بزند، و این موضوع در بین متخصصین لب خوانی کمی بالاتر است.

با این حال، اگر با به کار گیری روش های هوش مصنوعی و یادگیری عمیق توانسته ایم تشخیص گفتار صوتی را به عملکردی در سطح انسان برسانیم، پس چرا از همین رویه برای لب خوانی بهره نگیریم؟

به تازگی محققین دانشگاه اکسفورد مقاله ای را منتشر کرده اند که به کار گیری روش یادگیری عمیق را در لب خوانی نشان می دهد، و نتایج آن نسبتاً امیدوارکننده است. این نرم افزار که LipNet نام دارد، در شرایط کنترل شده به دقت 93.4 درصدی در تشخیص لغات دست یافته، در حالی که متخصصین لب خوانی در شرایطی مشابه حداکثر 52.3 درصد واژه ها را به درستی شناسایی کردند.

نکته مهم در مورد این نرم افزار، عملکرد سریع و بلادرنگ آن است و با اینکه سیستم هنوز در مراحل اولیه قرار دارد، باز هم می تواند ویدیوی صامت را به صورت آنی به متن نوشتاری تبدیل نماید.

آموزش سیستم فوق با استفاده از مجموعه داده GRID صورت گرفته، که ده ها هزار ویدیوی کوتاه از 34 نفر داوطلب را در بر می گیرد. این افراد در کلیپ های 3 ثانیه ای، جملاتی با الگوی مشخص و کلمات محدود را بیان می کردند. به همین دلیل منتقدین پروژه فوق می گویند این پژوهش در جهان واقعی کاربرد نخواهد داشت.

البته محققین مورد بحث در دفاع از خود عنوان داشتند دلیل استفاده از GRID صرفاً به خاطر محدودیت داده های استاندارد کنونی بوده و در صورتی که مجموعه داده غنی تر و گسترده تری در اختیار داشته باشند، می توانند همین نتایج مثبت را به دست آورند.

گفتنیست افرادی که در مورد حریم شخصی و مشکلات امنیتی این تکنولوژی بدبین هستند نیز نگران نباشند. به گفته این پژوهشگران، لب خوانی دقیق به تصویربرداری مستقیم از چهره با وضعیتی ثابت و قابلیت مشاهده زبان وابسته است، بنابراین دوربین های شهری هیچگاه محتوایی با کیفیت را برای استفاده از این فناوری تولید نخواهند کرد.

اشتراک گذاری:

کپی لینک