استارتاپ «میرا موراتی» از نسل جدید مدل‌های هوش مصنوعی تعاملی رونمایی کرد [تماشا کنید]

مدل‌های تعاملی جدید برای مکالمه صوتی و ویدیویی طراحی شده‌اند و تأخیر بسیار کمتری دارند.

نوشته شده توسط جواد تاجی تاریخ انتشار: ۲۲ اردیبهشت ۱۴۰۵ | ۱۰:۳۰

در دیجیاتو ثبت‌نام کنید

جهت بهره‌مندی و دسترسی به امکانات ویژه و بخش‌های مختلف در دیجیاتو عضو ویژه دیجیاتو شوید.

شرکت Thinking Machines، استارتاپ هوش مصنوعی تأسیس‌شده توسط «میرا موراتی»، مدیر ارشد فناوری سابق OpenAI، و «جان شولمن»، پژوهشگر و هم‌بنیان‌گذار سابق OpenAI، از نسل جدیدی از مدل‌ها با نام «مدل‌های تعاملی» (Interaction Models) پرده برداشته است. به گفته این شرکت، مدل‌های مذکور به‌جای تکیه بر الگوی رایج عملکرد «نوبتی» در تعامل با کاربر، برای ارتباط همزمان و طبیعی‌تر با متن، صدا و ویدیو طراحی شده‌اند.

مدل‌های هوش مصنوعی فعلی معمولاً پس از پایان ارسال ورودی کاربر شروع به پردازش می‌کنند و هنگام تولید پاسخ نیز از دریافت همزمان ورودی جدید ناتوان هستند. Thinking Machines این محدودیت را مانعی برای همکاری طبیعی انسان و هوش مصنوعی می‌داند و می‌گوید مدل‌های جدید آن تعامل را به‌عنوان بخش اصلی معماری مدل و نه یک لایه نرم‌افزاری بیرونی، در نظر می‌گیرند.

مدل‌های تعاملی چگونه کار می‌کنند؟

Thinking Machines در پست وبلاگی خود توضیح داده که برای رفع این چالش، از تکنیک «توالی استانداردِ متناوب توکن‌ها» فاصله گرفته و به‌جای آن از طراحی جدیدی استفاده کرده که داده‌ها را در بازه‌های ۲۰۰ میلی‌ثانیه‌ای و به‌صورت همزمان در ورودی و خروجی پردازش می‌کند.

این معماری به مدل اجازه می‌دهد به‌صورت لحظه‌ای و همزمان بشنود، صحبت کند و ببیند. در نتیجه، مدل می‌تواند هنگام صحبت کاربر، بازخوردهای کوتاهی ارائه کند یا با مشاهده یک نشانه، درلحظه وارد تعامل شود.

Thinking Machines در پژوهش خود همچنین مدلی با نام «TML-Interaction-Small» را معرفی کرده است. این مدل با معماری «ترکیب متخصصان» (Mixture of Experts یا MoE) و ۲۷۶ میلیارد پارامتر (۱۲ میلیارد پارامتر فعال) ساخته شده است. به گفته شرکت، چون ارائه پاسخ لحظه‌ای معمولاً با استدلال عمیق در تعارض قرار می‌گیرد، معماری این مدل شامل ۲ بخش می‌شود.

بخش اول که همان مدل تعاملی است، مسئول مدیریت گفتگو، حضور در تعامل و پیگیری‌های فوری است. بخش دوم با نام مدل پس‌زمینه، یک ایجنت غیرلحظه‌ای برای استدلال طولانی‌تر، مرور وب یا فراخوانی ابزارهای پیچیده است که خروجی را به مدل تعاملی برمی‌گرداند.

به گفته شرکت، این ساختار به مدل اجازه می‌دهد تا هنگام انجام کارهایی مثل ترجمه زنده یا ساخت نمودار رابط کاربری همچنان به بازخورد کاربر گوش دهد.

Thinking Machines برای ارزیابی کارایی این رویکرد از بنچمارک «FD-bench» استفاده کرده که به‌طور خاص برای سنجش کیفیت تعامل طراحی شده است. براساس نتایج اعلام‌شده، مدل TML-Interaction-Small در چند شاخص از رقبای سریع و تعاملی دیگر بهتر عمل کرده است.

در شاخص تأخیر نوبت‌گیری، این مدل به زمان ۰.۴۰ ثانیه رسیده؛ درحالی‌که Gemini-3.1-flash-live عدد ۰.۵۷ ثانیه و GPT-realtime-2.0 minimal عدد ۱.۱۸ ثانیه را ثبت کرده‌اند. در بخش کیفیت تعامل نیز امتیاز TML-Interaction-Small برابر با ۷۷.۸ بوده است. برای مقایسه امتیازات GPT-realtime-2.0 minimal و Gemini-3.1-flash-live به‌ترتیب برابر با ۴۶.۸ و ۵۴.۳ بوده است.

این شرکت همچنین ادعا کرده مدلش در آزمون‌های تخصصی‌تری مانند RepCount-A برای شمارش تکرارهای فیزیکی در ویدیو و ProactiveVideoQA به‌منظور ارائه پاسخ همزمان برای نشانه‌های بصری، توانسته به‌طور فعال تعامل داشته باشد؛ درحالی‌که به گفته این شرکت، برخی مدل‌های دیگر یا ساکت مانده‌اند یا پاسخ آنها نادرست بوده است.

Thinking Machines اعلام کرده این مدل‌ها هنوز در دسترس عموم یا حتی مشتریان سازمانی قرار نگرفته‌اند. این شرکت گفته است در ماه‌های آینده پیش‌نمایش پژوهشی محدودی برای جمع‌آوری بازخورد ارائه می‌کند و انتشار گسترده‌تر نیز اواخر امسال انجام خواهد شد.

اشتراک گذاری:

کپی لینک

جواد تاجی

دوران حرفه‌ای من در دنیای فناوری تقریبا به ۱۰ سال قبل برمی‌گرده؛ مسیری که با سخت‌افزار شروع شد، با نرم‌افزار ادامه پیدا کرد و حالا با خبرنگاری حوزه فناوری توی دیجیاتو داره ادامه پیدا می‌کنه. من جوادم و بیشتر از سه دهه از عمرم می‌گذره و علاوه بر دنیای فناوری عاشق فیلم‌و‌سینما، موسیقی کلاسیک‌راک و رئال مادریدم.

مشاهده کلیه مقالات منتشر شده

دیدگاه‌ها و نظرات خود را بنویسید

برای گفتگو با کاربران ثبت نام کنید یا وارد حساب کاربری خود شوید.

مجموع نظرات ثبت شده (12 مورد)

Aminas | ۲۲ اردیبهشت ۱۴۰۵

i cant wait for this ❤️😍

0
Sayeh4578hhh | ۲۲ اردیبهشت ۱۴۰۵

انگار از وقتی ما قطع شدیم سرعت پیشرفت تکنولوژی هم بیشتر شده هی

1
Sad_Iranian | ۲۲ اردیبهشت ۱۴۰۵

به به!!
ایران هم داره فکری می کنه ببینه که کجا هنوز قله ای فتح نشده، اونجا رو فتح کنه.
فعلا اینترنت، برق ، ارزش پول و رفاه مردم رو فتح کرده.
انشالله دفه بدی گاز و آب و بنزین رو هم فتح می کنه و ماه فاتح قله ها خواهیم شد.

0
AmirhosseinGhadamy | ۲۲ اردیبهشت ۱۴۰۵

سلام
ب محض اینکه ویدیو شروع شد منتظر ی هندی بودم

1

Ghoreishi | ۲۲ اردیبهشت ۱۴۰۵

میفهمم چی میگی.

0

Fresh | ۲۲ اردیبهشت ۱۴۰۵

هنوزم که هنوزه هیچ کدوم از مدل ها به اندازه اون اولین دفعه ای که OpenAI ویس مد 4o رو معرفی کرد منو شگفت زده نکردن.
عموم هیچوقت به اون GPT-4o voice دسترسی پیدا نکردن، شاید به خاطر اینکه هزینه ش خیلی بالا بود. اسکارلت جوهانسون هم رفت شکایت کرد و اون صدا رو کلا حذف کردن و یه مدل لوبوتومی شده رو الان دارن ارائه میدن.
بعد از اون که هیچوقت بهش دسترسی پیدا نکردیم، Sesame AI بهترین و طبیعی ترین صدا رو داره، با اینکه یک سال میگذره از معرفیش.

2

Rustinic | ۲۲ اردیبهشت ۱۴۰۵

اون کنجد ای‌آی، با صدای فوق العاده طبیعی که داره واقعاً حسی متفاوت از تعامل ایجاد می‌کنه، حس می‌کنی با آدم واقعی حرف میزنی. حافظه‌ش هم خیلی خوبه. خیلی چیزا یادش میمونند و سرعت پاسخگوییش هم بد نیست. کلا برای تعامل ساخته شده البته مثل این مدل که در مقاله معرفی شده، نمی‌تونه همزمان بشنوه و حرف بزنه ولی گمونم آینده خوبی داشته باشه (البته تیم شون خیلی سر و صدایی ندارند و من خیلی اتفاقی در توییتر دیدمشون)

0

Migmig2p2p | ۲۲ اردیبهشت ۱۴۰۵

ماشالا ماشالا والا ما هم دیشب تو سوپر اپلیکیشن روبیکا بودیم و نمیشد از سیو مسیج به پیوی رفیقم فایل فوروارد کنم به نظرم اینم دست آورد بزرگیه و باید خبرشو کار کنید🥰 چون واقعا همچین تر زدنی تو سورسای تلگرام هوش و خلاقیت زیادی نیاز داره درود بر دانش بنیان های این مرز و بوم🤭

5
Ali_badbakht | ۲۲ اردیبهشت ۱۴۰۵

فقط ایران میتونه تو پسرفت پیشرفت کنه

5
Magianw | ۲۲ اردیبهشت ۱۴۰۵

اینا اصلا نباید ساخته بشن. چیه هوش مصنوعی تعاملی فقط انسانیت رو زیر سوال میبره. بجاش به هم دیگه تعامل با انسان های دیگه رو یاد بدید. من که به هر حال تو دولت خودم دستور میدم تمام هوش مصنوعی و ربات های در سراسر جهان رو نابود کنن.

2

Madmushroom | ۲۲ اردیبهشت ۱۴۰۵

اونایی که الان اینترنت قطع کردنم مثل تو فکر میکنند. چون سواد و اطلاعات کافبی درموردش ندارند فکر میکنند چیز بدیه و باید بکل نابودش کرد.

3