ثبت بازخورد

لطفا میزان رضایت خود را از دیجیاتو انتخاب کنید.

واقعا راضی‌ام
اصلا راضی نیستم
چطور میتوانیم تجربه بهتری برای شما بسازیم؟

نظر شما با موفقیت ثبت شد.

از اینکه ما را در توسعه بهتر و هدفمند‌تر دیجیاتو همراهی می‌کنید
از شما سپاسگزاریم.

آمازون
هوش مصنوعی

آمازون از مدل هوش مصنوعی Nova Sonic پرده برداشت؛ رقیب حالت صوتی ChatGPT

مدل هوش مصنوعی جدید آمازون با نام Nova Sonic رقیبی برای مدل‌های صوتی پیشگام گوگل و OpenAI محسوب می‌شود.

ایمان صاحبی
نوشته شده توسط ایمان صاحبی | ۱۹ فروردین ۱۴۰۴ | ۱۷:۱۵

آمازون امروز از مدل هوش مصنوعی مولد جدیدی به‌ نام Nova Sonic رونمایی کرده است. این مدل می‌تواند صداها را به‌صورت بومی پردازش و گفتار طبیعی تولید کند. آمازون مدعی است عملکرد Nova Sonic در بنچمارک‌ها با مدل‌های پیشگام OpenAI و گوگل قابل‌مقایسه است.

مدل هوش مصنوعی آمازون، Nova Sonic، پاسخی برای حالت Voice Mode در ChatGPT است که می‌خواهد ارتباط گفتاری طبیعی‌تر از روزهای نخست الکسا فراهم کند. این مدل اکنون از طریق Bedrock، پلتفرم توسعه‌دهندگان آمازون، در دسترس قرار دارد. این شرکت می‌گوید Sonic «مقرون‌به‌صرفه‌ترین» مدل صوتی موجود در بازار است که حدود 80 درصد از GPT-4o ارزان‌تر است.

معرفی مدل هوش مصنوعی صوتی آمازون Nova Sonic

بخش‌هایی از اجزای Nova Sonic هم‌اکنون در نسخه جدید دستیار صوتی آمازون، الکسا پلاس، وجود دارد. این مدل از تخصص گسترده آمازون در سیستم‌های عظیم بهره جسته و با کمک همین دانش شکل گرفته است. این مدل در مقایسه با رقبا در وصل‌کردن درخواست‌های کاربر به APIهای گوناگون عملکرد بهتری دارد. این قابلیت به Nova Sonic کمک می‌کند تشخیص بدهد چه زمانی باید اطلاعات را درلحظه از اینترنت بگیرد یا سراغ منابع داده اختصاصی برود و از ابزارهای موردنیاز استفاده کند. در پایین نمونه ایجنت هوش مصنوعی برای مشاوره سفر با Nova Sonic را می‌شنوید:

مدل صوتی جدید آمازون حین گفتگو منتظر زمان مناسب برای حرف‌زدن می‌ماند و توقف‌های احتمالی کاربر را در نظر می‌گیرد. این مدل همچنین رونوشتی از صحبت‌ها ارائه می‌دهد که می‌تواند کاربردهای مختلفی داشته باشد. در ادامه نمونه دستیار هوش مصنوعی سازمانی با Nova Sonic را می‌شنوید:

طبق گفته آمازون، Sonic استعداد کمتری برای بروز خطا در تشخیص گفتار دارد؛ مدل می‌تواند مقصود کاربر را بهتر بفهمد، حتی اگر صدای او تا حدی ناواضح باشد یا تپق بزند. این مدل در بنچمارک Multilingual LibriSpeech نرخ خطای واژه‌ای (WER) 4.2 درصدی را در زبان‌های انگلیسی، فرانسوی، ایتالیایی، آلمانی و اسپانیایی به‌ دست آورده است.

آمازون می‌گوید Nova Sonic بخشی از استراتژی بزرگ‌تر این شرکت برای ساخت هوش جامع مصنوعی (AGI) است. این شرکت AGI را این‌طور معنا می‌کند: «سیستم‌های هوش مصنوعی که می‌توانند هر کاری انسان با کامپیوتر انجام می‌دهد، انجام دهند.»

ایمان صاحبی
دبیر بخش تکنولوژی

فناوری مخصوصاً بخشی که روی لبه حرکت می‌کنه، جذاب‌ترین قسمت این دنیا برام محسوب می‌شه، اما همه حوزه‌ها حتی نقاط تلاقی علم و فناوری می‌تونن خیلی جذاب باشن. در کنار این‌ها دنیای فیلم، سریال و بازی‌های ویدیویی رو هم دوست دارم.

دیدگاه‌ها و نظرات خود را بنویسید
مطالب پیشنهادی