
نتایج درخشان بنچمارک مدلهای هوش مصنوعی لاما 4 متا زیر سؤال رفت
برخی متخصصان شک دارند که نتایج بنچمارک مدلهای لاما 4 عملکرد واقعی این مدلها را نشان دهد.
متا اوایل هفته جاری از مدلهای هوش مصنوعی Llama 4 ازجمله Scout و Maverick رونمایی کرد. نتایج بنچمارکهای اولیه نشان میداد این مدلها قویتر از رقبا هستند اما شاید متا نتایج این بنچمارکها را دستکاری کرده باشد، هرچند خود شرکت این ادعا را رد میکند.
به گزارش ورج، مدل Maverick در بنچمارک LMArena توانست نمره ۱۴۱۷ را کسب کند و رقبایی همچون مدل 4o از OpenAI را پشت سر بگذارد و با فاصله بسیار اندکی پشت سر مدل جمینای ۲.۵ پرو قرار بگیرد. این نتایج ابتدا حکایت از آن داشت که متا توانسته رقبای قدرتمندی همچون گوگل و OpenAI را شکست دهد اما متخصصان حوزه هوش مصنوعی ادعاهای متا را بررسی کردند و به نتایج جالبی رسیدند.
شک و تردید درباره نتایج بنچمارکهای مدل Llama 4 متا

متخصصان ادعا میکنند متا مدلهای Llama 4 را آموزش داده تا در بنچمارکها عملکرد بهتری داشته باشند و درعینحال محدودیتهای واقعی خود را پنهان کنند. بااینکه از همان ابتدا شبهات زیادی درباره عملکرد این مدلها در بنچمارکها و احتمال دستکاری نتایج وجود داشت، «احمد الدحله»، معاون هوش مصنوعی مولد در متا، در پستی در شبکه اجتماعی ایکس تمام این شایعات را تکذیب کرد و گفت چنین چیزی صحت ندارد.
متا اذعان کرده نسخهای از مدل هوش مصنوعی Maverick که در بنچمارک LMArena تست شده، با مدلی که در دسترس عموم قرار گرفته، یکسان نیست. براساس اسناد خود متا، این شرکت نسخه آزمایشی مدل Maverick را در بنچمارک LMArena قرار داده است. این مدل برای مکالمه بهینهسازی شده و از ایموجیهای بیشتری استفاده میکند. همچنین این مدل آزمایشی پاسخهای طولانیتری به سؤالات کاربران میدهد.
علاوهبراین، زمان انتشار مدلهای جدید هوش مصنوعی متا نیز بر شک متخصصان افزود. متا شنبه، روز اول تعطیلات آخر هفته، از مدلهای Scout و Maverick رونمایی کرد که برای رونمایی از محصولی جدید با چنین پیشرفتهای خارقالعاده بسیار غیرمعمول است.
برای گفتگو با کاربران ثبت نام کنید یا وارد حساب کاربری خود شوید.