ثبت بازخورد

لطفا میزان رضایت خود را از دیجیاتو انتخاب کنید.

Very satisfied Satisfied Neutral Dissatisfied Very dissatisfied
واقعا راضی‌ام
اصلا راضی نیستم
چطور میتوانیم تجربه بهتری برای شما بسازیم؟

نظر شما با موفقیت ثبت شد.

از اینکه ما را در توسعه بهتر و هدفمند‌تر دیجیاتو همراهی می‌کنید
از شما سپاسگزاریم.

جدیدترین اخبار و روندهای دنیای فناوری را با نگاهی دقیق و حرفه‌ای، در کانال تلگرام دیجیاتو دنبال کنید.

ورود به کانال تلگرام دیجیاتو
تعامل با هوش مصنوعی
هوش مصنوعی

استارتاپ «میرا موراتی» از نسل جدید مدل‌های هوش مصنوعی تعاملی رونمایی کرد [تماشا کنید]

مدل‌های تعاملی جدید برای مکالمه صوتی و ویدیویی طراحی شده‌اند و تأخیر بسیار کمتری دارند.

جواد تاجی
نوشته شده توسط جواد تاجی تاریخ انتشار: ۲۲ اردیبهشت ۱۴۰۵ | ۱۰:۳۰

در دیجیاتو ثبت‌نام کنید

جهت بهره‌مندی و دسترسی به امکانات ویژه و بخش‌های مختلف در دیجیاتو عضو ویژه دیجیاتو شوید.

عضویت در دیجیاتو

شرکت Thinking Machines، استارتاپ هوش مصنوعی تأسیس‌شده توسط «میرا موراتی»، مدیر ارشد فناوری سابق OpenAI، و «جان شولمن»، پژوهشگر و هم‌بنیان‌گذار سابق OpenAI، از نسل جدیدی از مدل‌ها با نام «مدل‌های تعاملی» (Interaction Models) پرده برداشته است. به گفته این شرکت، مدل‌های مذکور به‌جای تکیه بر الگوی رایج عملکرد «نوبتی» در تعامل با کاربر، برای ارتباط همزمان و طبیعی‌تر با متن، صدا و ویدیو طراحی شده‌اند.

مدل‌های هوش مصنوعی فعلی معمولاً پس از پایان ارسال ورودی کاربر شروع به پردازش می‌کنند و هنگام تولید پاسخ نیز از دریافت همزمان ورودی جدید ناتوان هستند. Thinking Machines این محدودیت را مانعی برای همکاری طبیعی انسان و هوش مصنوعی می‌داند و می‌گوید مدل‌های جدید آن تعامل را به‌عنوان بخش اصلی معماری مدل و نه یک لایه نرم‌افزاری بیرونی، در نظر می‌گیرند.

مدل‌های تعاملی چگونه کار می‌کنند؟

Thinking Machines در پست وبلاگی خود توضیح داده که برای رفع این چالش، از تکنیک «توالی استانداردِ متناوب توکن‌ها» فاصله گرفته و به‌جای آن از طراحی جدیدی استفاده کرده که داده‌ها را در بازه‌های ۲۰۰ میلی‌ثانیه‌ای و به‌صورت همزمان در ورودی و خروجی پردازش می‌کند.

این معماری به مدل اجازه می‌دهد به‌صورت لحظه‌ای و همزمان بشنود، صحبت کند و ببیند. در نتیجه، مدل می‌تواند هنگام صحبت کاربر، بازخوردهای کوتاهی ارائه کند یا با مشاهده یک نشانه، درلحظه وارد تعامل شود.

Thinking Machines در پژوهش خود همچنین مدلی با نام «TML-Interaction-Small» را معرفی کرده است. این مدل با معماری «ترکیب متخصصان» (Mixture of Experts یا MoE) و ۲۷۶ میلیارد پارامتر (۱۲ میلیارد پارامتر فعال) ساخته شده است. به گفته شرکت، چون ارائه پاسخ لحظه‌ای معمولاً با استدلال عمیق در تعارض قرار می‌گیرد، معماری این مدل شامل ۲ بخش می‌شود.

بخش اول که همان مدل تعاملی است، مسئول مدیریت گفتگو، حضور در تعامل و پیگیری‌های فوری است. بخش دوم با نام مدل پس‌زمینه، یک ایجنت غیرلحظه‌ای برای استدلال طولانی‌تر، مرور وب یا فراخوانی ابزارهای پیچیده است که خروجی را به مدل تعاملی برمی‌گرداند.

به گفته شرکت، این ساختار به مدل اجازه می‌دهد تا هنگام انجام کارهایی مثل ترجمه زنده یا ساخت نمودار رابط کاربری همچنان به بازخورد کاربر گوش دهد.

Thinking Machines برای ارزیابی کارایی این رویکرد از بنچمارک «FD-bench» استفاده کرده که به‌طور خاص برای سنجش کیفیت تعامل طراحی شده است. براساس نتایج اعلام‌شده، مدل TML-Interaction-Small در چند شاخص از رقبای سریع و تعاملی دیگر بهتر عمل کرده است.

در شاخص تأخیر نوبت‌گیری، این مدل به زمان ۰.۴۰ ثانیه رسیده؛ درحالی‌که Gemini-3.1-flash-live عدد ۰.۵۷ ثانیه و GPT-realtime-2.0 minimal عدد ۱.۱۸ ثانیه را ثبت کرده‌اند. در بخش کیفیت تعامل نیز امتیاز TML-Interaction-Small برابر با ۷۷.۸ بوده است. برای مقایسه امتیازات GPT-realtime-2.0 minimal و Gemini-3.1-flash-live به‌ترتیب برابر با ۴۶.۸ و ۵۴.۳ بوده است.

این شرکت همچنین ادعا کرده مدلش در آزمون‌های تخصصی‌تری مانند RepCount-A برای شمارش تکرارهای فیزیکی در ویدیو و ProactiveVideoQA به‌منظور ارائه پاسخ همزمان برای نشانه‌های بصری، توانسته به‌طور فعال تعامل داشته باشد؛ درحالی‌که به گفته این شرکت، برخی مدل‌های دیگر یا ساکت مانده‌اند یا پاسخ آنها نادرست بوده است.

Thinking Machines اعلام کرده این مدل‌ها هنوز در دسترس عموم یا حتی مشتریان سازمانی قرار نگرفته‌اند. این شرکت گفته است در ماه‌های آینده پیش‌نمایش پژوهشی محدودی برای جمع‌آوری بازخورد ارائه می‌کند و انتشار گسترده‌تر نیز اواخر امسال انجام خواهد شد.

جواد تاجی
جواد تاجی

دوران حرفه‌ای من در دنیای فناوری تقریبا به ۱۰ سال قبل برمی‌گرده؛ مسیری که با سخت‌افزار شروع شد، با نرم‌افزار ادامه پیدا کرد و حالا با خبرنگاری حوزه فناوری توی دیجیاتو داره ادامه پیدا می‌کنه. من جوادم و بیشتر از سه دهه از عمرم می‌گذره و علاوه بر دنیای فناوری عاشق فیلم‌و‌سینما، موسیقی کلاسیک‌راک و رئال مادریدم.

دیدگاه‌ها و نظرات خود را بنویسید
مجموع نظرات ثبت شده (12 مورد)
  • Aminas
    Aminas | ۲۲ اردیبهشت ۱۴۰۵

    i cant wait for this ❤️😍

  • Sayeh4578hhh
    Sayeh4578hhh | ۲۲ اردیبهشت ۱۴۰۵

    انگار از وقتی ما قطع شدیم سرعت پیشرفت تکنولوژی هم بیشتر شده هی

  • Sad_Iranian
    Sad_Iranian | ۲۲ اردیبهشت ۱۴۰۵

    به به!!
    ایران هم داره فکری می کنه ببینه که کجا هنوز قله ای فتح نشده، اونجا رو فتح کنه.
    فعلا اینترنت، برق ، ارزش پول و رفاه مردم رو فتح کرده.
    انشالله دفه بدی گاز و آب و بنزین رو هم فتح می کنه و ماه فاتح قله ها خواهیم شد.

  • AmirhosseinGhadamy
    AmirhosseinGhadamy | ۲۲ اردیبهشت ۱۴۰۵

    سلام
    ب محض اینکه ویدیو شروع شد منتظر ی هندی بودم

    • Ghoreishi
      Ghoreishi | ۲۲ اردیبهشت ۱۴۰۵

      میفهمم چی میگی.

  • Fresh
    Fresh | ۲۲ اردیبهشت ۱۴۰۵

    هنوزم که هنوزه هیچ کدوم از مدل ها به اندازه اون اولین دفعه ای که OpenAI ویس مد 4o رو معرفی کرد منو شگفت زده نکردن.
    عموم هیچوقت به اون GPT-4o voice دسترسی پیدا نکردن، شاید به خاطر اینکه هزینه ش خیلی بالا بود. اسکارلت جوهانسون هم رفت شکایت کرد و اون صدا رو کلا حذف کردن و یه مدل لوبوتومی شده رو الان دارن ارائه میدن.
    بعد از اون که هیچوقت بهش دسترسی پیدا نکردیم، Sesame AI بهترین و طبیعی ترین صدا رو داره، با اینکه یک سال میگذره از معرفیش.

    • Rustinic
      Rustinic | ۲۲ اردیبهشت ۱۴۰۵

      اون کنجد ای‌آی، با صدای فوق العاده طبیعی که داره واقعاً حسی متفاوت از تعامل ایجاد می‌کنه، حس می‌کنی با آدم واقعی حرف میزنی. حافظه‌ش هم خیلی خوبه. خیلی چیزا یادش میمونند و سرعت پاسخگوییش هم بد نیست. کلا برای تعامل ساخته شده البته مثل این مدل که در مقاله معرفی شده، نمی‌تونه همزمان بشنوه و حرف بزنه ولی گمونم آینده خوبی داشته باشه (البته تیم شون خیلی سر و صدایی ندارند و من خیلی اتفاقی در توییتر دیدمشون)

  • Migmig2p2p
    Migmig2p2p | ۲۲ اردیبهشت ۱۴۰۵

    ماشالا ماشالا والا ما هم دیشب تو سوپر اپلیکیشن روبیکا بودیم و نمیشد از سیو مسیج به پیوی رفیقم فایل فوروارد کنم به نظرم اینم دست آورد بزرگیه و باید خبرشو کار کنید🥰 چون واقعا همچین تر زدنی تو سورسای تلگرام هوش و خلاقیت زیادی نیاز داره درود بر دانش بنیان های این مرز و بوم🤭

  • Ali_badbakht
    Ali_badbakht | ۲۲ اردیبهشت ۱۴۰۵

    فقط ایران میتونه تو پسرفت پیشرفت کنه

  • Magianw
    Magianw | ۲۲ اردیبهشت ۱۴۰۵

    اینا اصلا نباید ساخته بشن. چیه هوش مصنوعی تعاملی فقط انسانیت رو زیر سوال میبره. بجاش به هم دیگه تعامل با انسان های دیگه رو یاد بدید. من که به هر حال تو دولت خودم دستور میدم تمام هوش مصنوعی و ربات های در سراسر جهان رو نابود کنن.

    • Madmushroom
      Madmushroom | ۲۲ اردیبهشت ۱۴۰۵

      اونایی که الان اینترنت قطع کردنم مثل تو فکر میکنند. چون سواد و اطلاعات کافبی درموردش ندارند فکر میکنند چیز بدیه و باید بکل نابودش کرد.

  • Ali_badbakht
    Ali_badbakht | ۲۲ اردیبهشت ۱۴۰۵

    فقط میتونم به ایران بخندم 🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣😂😂😂😂😂😂😂😂😂😂😂😂😂😂🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣🤣😁😁😁😄😁😄😁😁🤣😂😂🤣🤣🤣😂🤣😂🤣🤣🤣

مطالب پیشنهادی