ثبت بازخورد

لطفا میزان رضایت خود را از دیجیاتو انتخاب کنید.

واقعا راضی‌ام
اصلا راضی نیستم
چطور میتوانیم تجربه بهتری برای شما بسازیم؟

نظر شما با موفقیت ثبت شد.

از اینکه ما را در توسعه بهتر و هدفمند‌تر دیجیاتو همراهی می‌کنید
از شما سپاسگزاریم.

هوش مصنوعی Alibaba
هوش مصنوعی

علی‌بابا چین مدل هوش مصنوعی استدلالگر تصویری معرفی کرد

مدل جدید می‌تواند محتوای تصاویر را درک کند و با تحلیل و استدلال، اطلاعاتی درباره آنها ارائه دهد.

آزاد کبیری
نوشته شده توسط آزاد کبیری | ۹ فروردین ۱۴۰۴ | ۱۱:۰۰

Alibaba، غول فناوری چینی، مدل جدید هوش مصنوعی از سری Qwen به نام QVQ-Max را معرفی کرد. این مدل استدلالگر تصویر است و می‌تواند محتوای عکس‌ها و فیلم‌ها را درک کند و با تحلیل و استدلال، اطلاعاتی درباره آنها ارائه دهد.

براساس گزارش Neowin، علی‌بابا می‌گوید با مدل QVQ-Max شکاف مدل‌های هوش مصنوعی مبتنی‌بر متن و اطلاعات دنیای واقعی در تصاویر را پر می‌کند. این هوش مصنوعی با قابلیت استدلال بصری می‌تواند واقعیت‌های جهان را ببیند، بفهمد و درباره آنها فکر کند. این شرکت چینی ادعا می‌کند این مدل در تجزیه‌وتحلیل تصاویر و شناسایی عناصر کلیدی عملکرد خیلی خوبی دارد و در مواردی می‌توان از آن برای تصویرسازی و تولید فیلم‌نامه نیز استفاده کرد.

هوش مصنوعی استدلالگر تصویری Alibaba

هوش مصنوعی Alibaba

مانند سایر چت‌بات‌های هوش مصنوعی، QVQ-Max نیز می‌تواند در کارهای مختلف کمکتان کند و با اضافه شدن این قابلیت تصویری می‌توانید کارهای بیشتری را به آن بسپارید؛ برای مثال عکس مسائل ریاضی و فیزیک همراه نمودارها را برایش بفرستید.

علی‌بابا QVQ-Max را اولین نسخه از مدل استدلالگر تصویری خود نامیده است و به‌مرور می‌خواهد آن را در چندین مرحله بهبود دهد. ابتدا Alibaba می‌خواهد دقت تشخیص تصویر را بهبود ببخشد. سپس مدل را در حل مسائل چندمرحله‌ای و پیچیده بهتر کند. درنهایت قصد دارد این مدل را از تعاملات مبتنی‌بر متن فراتر برده و آن را به قابلیت‌هایی مثل تولید بصری مجهز کند.

برای استفاده از QVQ-Max، ابتدا باید به chat.qwen.ai بروید، روی منوی مدل‌ها در بالا سمت چپ کلیک کنید، گزینه «Expand more models» را بزنید و QVQ-Max را انتخاب کنید. برای آنکه بهتر از قابلیت‌های این مدل استفاده کنید، بهتر است تصویری را پیوست کنید سپس از مدل درباره آن سؤال کنید.

علی‌بابا چندی قبل نیز مدل Qwen2.5-Max را منتشر کرد که در بنچمارک‌های مختلف از مدل V3 دیپ‌‌سیک، GPT-4o و Llama-3.1-405B متا بهتر عمل می‌کند.

آزاد کبیری

دانش‌آموخته‌ی ساکتِ زبان‌شناسی هستم و همان‌قدر که به کلمات علاقه‌مندم، سرک‌کشیدن به هر گوشه‌ از تکنولوژی و علم را هم دوست دارم. حدود 15 سال نیز از نگارش اولین متن رسمی من می‌گذرد.

دیدگاه‌ها و نظرات خود را بنویسید
مطالب پیشنهادی