IBM و توسعه نرم افزاری رکوردشکن در تشخیص گفتار انسان

کمپانی های فعال در حوزه تکنولوژی سالیان درازی است که تلاش می کنند تا نرم افزارهای تشخیص گفتار را به گونه ای توسعه دهند تا دقتی نزدیک به انسان از خود نشان دهند. حال IBM خبر می دهد که موفق شده رکورد پیشین را جا به جا کرده و به نرخ کلمات خطا ی۵.۵ درصدی دست پیدا کند. این موفقیت می تواند در کارایی هرچه بهتر دستیارهای صوتی مانند سیری و الکسا مفید باشد.

در اواخر ماه مهر در دیجیاتو خواندید که مایکروسافت به نرخ ارورهای ۵.۹ درصد رسیده و معتقد است که با این مقدار خطا توانسته به سطح «برابری با انسان» دست یابد اما یکی از محققان IBM در اظهار نظر خود عنوان کرد که «در واقع سطح برابری با انسان کمتر از آن چیزی است که بشر تاکنون فکر می کرده و برابر با ۵.۱ درصد است.»

در همین رابطه «جولیا هیرشبرگ»، پروفسور و رئیس دانشکده علوم کامپیوتر دانشگاه کلومبیا عنوان کرده است:

شناسایی گفتار در سطحی نزدیک به قدرت درک انسان، در طول تاریخ یک مسئله چالش انگیز برای محققان بوده زیرا صحبت کردن بشر مخصوصاً در زمان هایی که بی اختیار باشد، بسیار پیچیده است.

گفتنی است IBM برای دست یافتن به موفق مورد اشاره از ترکیب ابزارهایی نظیر شبکه هوش مصنوعی، مدل های زبانی WaveNet در کنار سه مدل اکوستیکی قوی بهره برده است. سپس با استفاده از «SWITCHBOARD» که مجموعه ایست از مکالمات تلفنی، برای ثبت بنچمارک پلتفرم خود بهره بردند.

نظرات ۰

وارد شوید

برای گفتگو با کاربران، وارد حساب کاربری خود شوید.

ورود

رمزتان را گم کرده‌اید؟