استارتاپ «میرا موراتی» از نسل جدید مدلهای هوش مصنوعی تعاملی رونمایی کرد [تماشا کنید]
مدلهای تعاملی جدید برای مکالمه صوتی و ویدیویی طراحی شدهاند و تأخیر بسیار کمتری دارند.
شرکت Thinking Machines، استارتاپ هوش مصنوعی تأسیسشده توسط «میرا موراتی»، مدیر ارشد فناوری سابق OpenAI، و «جان شولمن»، پژوهشگر و همبنیانگذار سابق OpenAI، از نسل جدیدی از مدلها با نام «مدلهای تعاملی» (Interaction Models) پرده برداشته است. به گفته این شرکت، مدلهای مذکور بهجای تکیه بر الگوی رایج عملکرد «نوبتی» در تعامل با کاربر، برای ارتباط همزمان و طبیعیتر با متن، صدا و ویدیو طراحی شدهاند.
مدلهای هوش مصنوعی فعلی معمولاً پس از پایان ارسال ورودی کاربر شروع به پردازش میکنند و هنگام تولید پاسخ نیز از دریافت همزمان ورودی جدید ناتوان هستند. Thinking Machines این محدودیت را مانعی برای همکاری طبیعی انسان و هوش مصنوعی میداند و میگوید مدلهای جدید آن تعامل را بهعنوان بخش اصلی معماری مدل و نه یک لایه نرمافزاری بیرونی، در نظر میگیرند.
مدلهای تعاملی چگونه کار میکنند؟
Thinking Machines در پست وبلاگی خود توضیح داده که برای رفع این چالش، از تکنیک «توالی استانداردِ متناوب توکنها» فاصله گرفته و بهجای آن از طراحی جدیدی استفاده کرده که دادهها را در بازههای ۲۰۰ میلیثانیهای و بهصورت همزمان در ورودی و خروجی پردازش میکند.
این معماری به مدل اجازه میدهد بهصورت لحظهای و همزمان بشنود، صحبت کند و ببیند. در نتیجه، مدل میتواند هنگام صحبت کاربر، بازخوردهای کوتاهی ارائه کند یا با مشاهده یک نشانه، درلحظه وارد تعامل شود.
Thinking Machines در پژوهش خود همچنین مدلی با نام «TML-Interaction-Small» را معرفی کرده است. این مدل با معماری «ترکیب متخصصان» (Mixture of Experts یا MoE) و ۲۷۶ میلیارد پارامتر (۱۲ میلیارد پارامتر فعال) ساخته شده است. به گفته شرکت، چون ارائه پاسخ لحظهای معمولاً با استدلال عمیق در تعارض قرار میگیرد، معماری این مدل شامل ۲ بخش میشود.
بخش اول که همان مدل تعاملی است، مسئول مدیریت گفتگو، حضور در تعامل و پیگیریهای فوری است. بخش دوم با نام مدل پسزمینه، یک ایجنت غیرلحظهای برای استدلال طولانیتر، مرور وب یا فراخوانی ابزارهای پیچیده است که خروجی را به مدل تعاملی برمیگرداند.
به گفته شرکت، این ساختار به مدل اجازه میدهد تا هنگام انجام کارهایی مثل ترجمه زنده یا ساخت نمودار رابط کاربری همچنان به بازخورد کاربر گوش دهد.
Thinking Machines برای ارزیابی کارایی این رویکرد از بنچمارک «FD-bench» استفاده کرده که بهطور خاص برای سنجش کیفیت تعامل طراحی شده است. براساس نتایج اعلامشده، مدل TML-Interaction-Small در چند شاخص از رقبای سریع و تعاملی دیگر بهتر عمل کرده است.
در شاخص تأخیر نوبتگیری، این مدل به زمان ۰.۴۰ ثانیه رسیده؛ درحالیکه Gemini-3.1-flash-live عدد ۰.۵۷ ثانیه و GPT-realtime-2.0 minimal عدد ۱.۱۸ ثانیه را ثبت کردهاند. در بخش کیفیت تعامل نیز امتیاز TML-Interaction-Small برابر با ۷۷.۸ بوده است. برای مقایسه امتیازات GPT-realtime-2.0 minimal و Gemini-3.1-flash-live بهترتیب برابر با ۴۶.۸ و ۵۴.۳ بوده است.

این شرکت همچنین ادعا کرده مدلش در آزمونهای تخصصیتری مانند RepCount-A برای شمارش تکرارهای فیزیکی در ویدیو و ProactiveVideoQA بهمنظور ارائه پاسخ همزمان برای نشانههای بصری، توانسته بهطور فعال تعامل داشته باشد؛ درحالیکه به گفته این شرکت، برخی مدلهای دیگر یا ساکت ماندهاند یا پاسخ آنها نادرست بوده است.
Thinking Machines اعلام کرده این مدلها هنوز در دسترس عموم یا حتی مشتریان سازمانی قرار نگرفتهاند. این شرکت گفته است در ماههای آینده پیشنمایش پژوهشی محدودی برای جمعآوری بازخورد ارائه میکند و انتشار گستردهتر نیز اواخر امسال انجام خواهد شد.
دیدگاهها و نظرات خود را بنویسید
برای گفتگو با کاربران ثبت نام کنید یا وارد حساب کاربری خود شوید.
i cant wait for this ❤️😍
انگار از وقتی ما قطع شدیم سرعت پیشرفت تکنولوژی هم بیشتر شده هی
به به!!
ایران هم داره فکری می کنه ببینه که کجا هنوز قله ای فتح نشده، اونجا رو فتح کنه.
فعلا اینترنت، برق ، ارزش پول و رفاه مردم رو فتح کرده.
انشالله دفه بدی گاز و آب و بنزین رو هم فتح می کنه و ماه فاتح قله ها خواهیم شد.
سلام
ب محض اینکه ویدیو شروع شد منتظر ی هندی بودم
میفهمم چی میگی.
هنوزم که هنوزه هیچ کدوم از مدل ها به اندازه اون اولین دفعه ای که OpenAI ویس مد 4o رو معرفی کرد منو شگفت زده نکردن.
عموم هیچوقت به اون GPT-4o voice دسترسی پیدا نکردن، شاید به خاطر اینکه هزینه ش خیلی بالا بود. اسکارلت جوهانسون هم رفت شکایت کرد و اون صدا رو کلا حذف کردن و یه مدل لوبوتومی شده رو الان دارن ارائه میدن.
بعد از اون که هیچوقت بهش دسترسی پیدا نکردیم، Sesame AI بهترین و طبیعی ترین صدا رو داره، با اینکه یک سال میگذره از معرفیش.
اون کنجد ایآی، با صدای فوق العاده طبیعی که داره واقعاً حسی متفاوت از تعامل ایجاد میکنه، حس میکنی با آدم واقعی حرف میزنی. حافظهش هم خیلی خوبه. خیلی چیزا یادش میمونند و سرعت پاسخگوییش هم بد نیست. کلا برای تعامل ساخته شده البته مثل این مدل که در مقاله معرفی شده، نمیتونه همزمان بشنوه و حرف بزنه ولی گمونم آینده خوبی داشته باشه (البته تیم شون خیلی سر و صدایی ندارند و من خیلی اتفاقی در توییتر دیدمشون)
ماشالا ماشالا والا ما هم دیشب تو سوپر اپلیکیشن روبیکا بودیم و نمیشد از سیو مسیج به پیوی رفیقم فایل فوروارد کنم به نظرم اینم دست آورد بزرگیه و باید خبرشو کار کنید🥰 چون واقعا همچین تر زدنی تو سورسای تلگرام هوش و خلاقیت زیادی نیاز داره درود بر دانش بنیان های این مرز و بوم🤭
فقط ایران میتونه تو پسرفت پیشرفت کنه
اینا اصلا نباید ساخته بشن. چیه هوش مصنوعی تعاملی فقط انسانیت رو زیر سوال میبره. بجاش به هم دیگه تعامل با انسان های دیگه رو یاد بدید. من که به هر حال تو دولت خودم دستور میدم تمام هوش مصنوعی و ربات های در سراسر جهان رو نابود کنن.
اونایی که الان اینترنت قطع کردنم مثل تو فکر میکنند. چون سواد و اطلاعات کافبی درموردش ندارند فکر میکنند چیز بدیه و باید بکل نابودش کرد.
فقط میتونم به ایران بخندم 🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣😂😂😂😂😂😂😂😂😂😂😂😂😂😂🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣😁😁😁😄😁😄😁😁🤣😂😂🤣🤣🤣😂🤣😂🤣🤣🤣