ثبت بازخورد

لطفا میزان رضایت خود را از دیجیاتو انتخاب کنید.

واقعا راضی‌ام
اصلا راضی نیستم
چطور میتوانیم تجربه بهتری برای شما بسازیم؟

نظر شما با موفقیت ثبت شد.

از اینکه ما را در توسعه بهتر و هدفمند‌تر دیجیاتو همراهی می‌کنید
از شما سپاسگزاریم.

تکنولوژی

تاکوترون؛ هوش مصنوعی جدید و پیشرفته گوگل برای تبدیل متن به گفتار

گوگل نیز همانند هر شرکت دیگری، می خواهد خروجی گفتاری محصولاتش تا جای ممکن واقعی و طبیعی به نظر برسد. برای حصول این نتیجه می توان از یک هنرپیشه معروف و خوش صدا (مثلاً اسکارلت ...

حمید مقدسی
نوشته شده توسط حمید مقدسی | ۲ اردیبهشت ۱۳۹۶ | ۱۴:۰۰

گوگل نیز همانند هر شرکت دیگری، می خواهد خروجی گفتاری محصولاتش تا جای ممکن واقعی و طبیعی به نظر برسد. برای حصول این نتیجه می توان از یک هنرپیشه معروف و خوش صدا (مثلاً اسکارلت یوهانسون) بخواهیم تمام کلمات و عبارات و آواهای مختلف را ادا کند و سپس با استفاده از نرم افزاری پیچیده آنها را با هم ترکیب نماییم، اما این روش برای گوگل چندان هیجان انگیز نیست.

غول تکنولوژی مانتن ویو به تازگی از سامانه جدیدی تحت عنوان «تاکوترون» (Tacotron) رونمایی کرده که از فنون یادگیری عمیق (deep learning) برای تبدیل نوشته به گفتار بهره می گیرد. تاکوترون قادر است ویژگی های عروضی (تُن و آهنگ موسیقایی گفتار) را رعایت کند، ابهام معنایی (مانند تلفظ متفاوت read در زمان های حال و گذشته) را تشخیص دهد، خطاهای املایی نوشته را به بهترین شکل ممکن اصلاح نماید، و حتی سبک های نوشتاری هیجانی و نامأنوس (مثلاً «این خعععلی عاولیه») را نیز به خوبی ادا کند؛ این قابلیت ها تاکنون در هیچکدام از موتورهای تبدیل نوشتار به گفتار وجود نداشت.

گوگل در مقاله کامل خود عنوان می دارد که سنتز مُقطع گفتار، یعنی همان رویکردی که هم اکنون توسط اپل در «سیری» به کار گرفته می شود، خروجی طبیعی تری را در مقایسه با تاکوترون خواهد داشت، اما پیاده سازی آن بسیار پر هزینه، دشوار و با محدودیت های خاصی همراه است. مثلاً دو عبارت با کلمات مشابه در حالت خبری و سؤالی، آهنگ بیان متفاوتی خواهند داشت و تغییر نرم افزاری این ویژگی، نمی تواند در تمامی شرایط خروجی مطلوبی را ایجاد کند.

برای غلبه بر این مشکلات ناخواسته و خاص که قابل شناسایی و برنامه ریزی نیستند، تاکوترون از سیستم هوش مصنوعی مبتنی بر یادگیری عمیق برای تصمیم گیری استفاده می کند و اگرچه طبیعی ترین خروجی را تحویل نمی دهد، اما بسیار سریع تر از فناوری های کنونی عمل کرده، پیاده سازی آن ساده تر است، و موارد استثنایی و خاص را نیز به خوبی مدیریت می نماید.

به گفته مدیر این پروژه، تاکوترون فرایند پردازش و تبدیل متن به گفتار را با استفاده از معماری ساده شبکه عصبی انجام می دهد و به همین دلیل، آموزش آن با استفاده از پایگاه داده عظیم نوشتار و گفتار همانند آنچه گوگل در اختیار دارد، بسیار ساده خواهد بود.

البته گوگل هنوز در مورد استفاده از تاکوترون در محصولاتش چیزی نگفته، اما اگر در آینده با عبارتی عجیب و غریب و فنی روبرو شدید که موتور تبدیل نوشتار به گفتار گوگل به راحتی از عهده خواندن آن برآمد، مطمئن باشید که تاکوترون در آن سوی خط حضور دارد.

دیدگاه‌ها و نظرات خود را بنویسید
مطالب پیشنهادی