ثبت بازخورد

لطفا میزان رضایت خود را از دیجیاتو انتخاب کنید.

واقعا راضی‌ام
اصلا راضی نیستم
چطور میتوانیم تجربه بهتری برای شما بسازیم؟

نظر شما با موفقیت ثبت شد.

از اینکه ما را در توسعه بهتر و هدفمند‌تر دیجیاتو همراهی می‌کنید
از شما سپاسگزاریم.

هوش مصنوعی متن به گفتار
هوش مصنوعی

آمازون در حال توسعه بزرگ‌ترین مدل هوش مصنوعی تبدیل متن به گفتار است

طبق ادعای محققان آمازون، برای آموزش بزرگ‌ترین نسخه این مدل از 100 هزار ساعت سخنرانی در حوزه عمومی استفاده شده است.

جواد تاجی
نوشته شده توسط جواد تاجی | ۲۶ بهمن ۱۴۰۲ | ۱۷:۰۰

محققان آمازون ادعا کرده‌اند که بزرگ‌ترین مدل هوش مصنوعی تبدیل متن به گفتار را آموزش داده‌اند. این مدل جدید که BASE TTS نام دارد، با 100 هزار ساعت اطلاعات صوتی آموزش داده شده است و با قابلیت‌های بی‌سابقه خود، می‌تواند در حوزه مدل‌های تبدیل متن به صدا انقلابی ظاهر شود.

مدل جدید آمازون Big Adaptive Streamable TTS با قابلیت‌های نوظهور نام دارد که به‌صورت مخفف و با عنوان BASE TTS شناخته می‌شود. برای آموزش بزرگ‌ترین نسخه این مدل از 100 هزار ساعت سخنرانی در حوزه عمومی استفاده شده که 90 درصد آن به زبان انگلیسی و بخش دیگر به زبان‌های آلمانی، هلند و اسپانیایی است.

این نسخه (BASE-large) با پشتیبانی از 980 میلیون پارامتر، ظاهرا بزرگ‌ترین مدل در نوع خود محسوب می‌شود. همچنین این مدل اساساً یک تقلید کننده صدا نیست، بلکه با وجود ویژگی‌های نوظهور خود می‌تواند حتی در صورت مواجه‌شدن با جملات پیچیده، در زمینه ارائه گفتار با صدای طبیعی، بهترین عملکرد را داشته باشد. آمازون همچنین مدل‌های 400 و 150 پارامتری مدل خود را براساس 10 هزار و 1000 ساعت صدا آموزش داده است.

نمونه تولید‌شده توسط مدل هوش مصنوعی تبدیل متن به گفتار آمازون

در وب‌سایتی که برای این مدل ساخته شده است، چندین نمونه صدا که توسط ابزارهای تبدیل متن به صدا با هوش مصنوعی ساخته شده، وجود دارد. در ادامه یک مورد از این صداها را م‌ی‌توانید گوش دهید.

باید به این نکته توجه داشت که این مدل هنوز در مرحله فرایند تجربی خود قرار دارد و برای اهداف تجاری یا موارد مشابه نمی‌توان از آن استفاده کرد. در تحقیقات بعدی احتمالاً توضیحات بیشتری درباره توانایی‌های نوظهوری و همچنین نحوه آموزش و استقرار مدل اعلام خواهد شد.

هرچند منابع و داده‌های مورداستفاده در BASE TTS به دلایل امنیتی فاش نشده است، اما عملکرد چشمگیر این مدل نشانه‌های روشنی از پیشرفت حوزه هوش مصنوعی است.

جواد تاجی

دوران حرفه‌ای من توی دنیای فناوری تقریبا به ۱۰ سال قبل برمی‌گرده؛ مسیری که با سخت‌افزار شروع شد، با نرم‌افزار ادامه پیدا کرد و حالا با خبرنگاری حوزه فناوری توی دیجیاتو داره ادامه پیدا می‌کنه. من جوادم و نزدیک به سه دهه از عمرم می‌گذره و علاوه بر دنیای فناوری عاشق فیلم‌و‌سینما، موسیقی کلاسیک‌راک و رئال مادریدم.

دیدگاه‌ها و نظرات خود را بنویسید
مطالب پیشنهادی