ثبت بازخورد

لطفا میزان رضایت خود را از دیجیاتو انتخاب کنید.

Very satisfied Satisfied Neutral Dissatisfied Very dissatisfied
واقعا راضی‌ام
اصلا راضی نیستم
چطور میتوانیم تجربه بهتری برای شما بسازیم؟

نظر شما با موفقیت ثبت شد.

از اینکه ما را در توسعه بهتر و هدفمند‌تر دیجیاتو همراهی می‌کنید
از شما سپاسگزاریم.

جدیدترین اخبار و روندهای دنیای فناوری را با نگاهی دقیق و حرفه‌ای، در کانال تلگرام دیجیاتو دنبال کنید.

ورود به کانال تلگرام دیجیاتو
هوش مصنوعی مایکروسافت
هوش مصنوعی

مایکروسافت از سه مدل هوش مصنوعی برای تولید صدا و عکس رونمایی کرد

این مدل‌ها می‌توانند گفتار را به متن تبدیل و صدا و تصویر تولید کنند.

آزاد کبیری
نوشته شده توسط آزاد کبیری تاریخ انتشار: ۱۳ فروردین ۱۴۰۵ | ۱۶:۴۸

در دیجیاتو ثبت‌نام کنید

جهت بهره‌مندی و دسترسی به امکانات ویژه و بخش‌های مختلف در دیجیاتو عضو ویژه دیجیاتو شوید.

عضویت در دیجیاتو

مایکروسافت به‌تازگی از سه مدل هوش مصنوعی پیشرفته و مقرون‌به‌صرفه پرده برداشت؛ کاربرد اصلی این مدل‌ها تبدیل گفتار به متن، تولید صدا و تولید عکس است. این مدل‌ها نشان‌دهنده جاه‌طلبی مایکروسافت برای رقابت مستقیم با OpenAI، گوگل و دیگر آزمایشگاه‌های پیشرفته است.

سه مدل جدید MAI-Transcribe-1 ،MAI-Voice-1 و MAI-Image-2 هستند و ‌اکنون از طریق Microsoft Foundry و MAI Playground در دسترس قرار دارند.

هر کدام از این مدل‌ها کاربرد خاصی دارند:

  • MAI-Transcribe-1: تبدیل گفتار به متن با دقت بی‌سابقه در ۲۵ زبان و سرعت ۲.۵ برابر سریع‌تر از نسخه فعلی Azure Fast.
  • MAI-Voice-1: تولید صدای طبیعی و حفظ هویت گوینده در محتوای طولانی، با قابلیت ساخت صدای سفارشی فقط با چند ثانیه نمونه صوتی.
  • MAI-Image-2: تولید تصاویر با سرعت دو برابر نسبت به نسل قبلی و امکان استفاده در Bing و PowerPoint.

معرفی مدل‌های جدید مایکروسافت

MAI-Transcribe-1 در آزمون FLEURS، کمترین نرخ خطای کلمه (WER) را در میان ۲۵ زبان برتر مورد استفاده محصولات مایکروسافت ثبت کرده است. این مدل در تمام زبان‌ها از Whisper-large-v3 اوپن‌ای‌آی پیشی گرفته و در بسیاری از زبان‌ها گوگل و مدل‌های دیگر را هم پشت سر گذاشته است.

هوش مصنوعی مایکروسافت

MAI-Voice-1 رقیب جدی مدل‌های ElevenLabs و Resemble AI است و می‌تواند صدا‌های مختلفی تولید کند؛ هزینه آن نیز ۲۲ دلار برای هر میلیون کاراکتر است. MAI-Image-2 نیز تولید تصاویر را سریع‌تر کرده و با قیمت ۵ دلار برای هر میلیون توکن ورودی متن و ۳۳ دلار برای هر میلیون توکن تصویر ارائه می‌شود.

مایکروسافت پیش‌تر با OpenAI قراردادی داشت که در آن متعهد شده بود مدل‌های خود را توسعه ندهد. اکنون پس از بازنگری در این قرارداد، مایکروسافت توانست به‌طور مستقل به توسعه مدل‌های هوش مصنوعی پیشرفته خود بپردازد.

یکی از نکات قابل‌توجه این است که این مدل‌ها با تیم‌های کوچک (کمتر از ۱۰ نفر) ساخته شده‌اند. این رویکرد هزینه‌ها را کاهش می‌دهد و نشان می‌دهد که توسعه هوش مصنوعی پیشرفته لزوماً به هزاران پژوهشگر و میلیاردها دلار هزینه نیاز ندارد.

آزاد کبیری
آزاد کبیری

دانش‌آموخته‌ زبان‌شناسی‌ هستم و همان‌قدر که به «کلمه» علاقه‌مندم، از سرک‌کشیدن به گوشه‌وکنارِ جهان تکنولوژی و علم هم حظ می‌کنم.

دیدگاه‌ها و نظرات خود را بنویسید
مطالب پیشنهادی