
آیا xAI درباره برتری عملکرد Grok 3 دروغ گفته است؟
xAI و OpenAI بر سر نتایج بنچمارک Grok 3 اختلاف دارند.

در دنیای هوش مصنوعی، مقایسه مدلها و گزارش عملکرد آنها همواره بحثبرانگیز بوده است. این هفته، یکی از کارکنان OpenAI شرکت xAI متعلق به ایلان ماسک را به انتشار اطلاعات گمراهکننده درباره عملکرد مدل جدیدش، Grok 3، متهم کرد. درحالیکه «ایگور بابوشکین» (Igor Babushkin)، یکی از مهندسان ارشد xAI، از نتایج منتشرشده دفاع کرده است.
ماجرای انتشار بنچمارکهای Grok 3
xAI در وبلاگ رسمی خود نموداری منتشر کرد که نشان میداد Grok 3 در بنچمارک «AIME 2025» نسبت به مدل «o3-mini-high» از OpenAI عملکرد بهتری دارد. طبق گزارش «Techcrunch»، آزمون AIME 2025 مجموعهای از سؤالات ریاضی چالشبرانگیز است که برای ارزیابی توانایی ریاضی مدلهای هوش مصنوعی به کار میرود. البته برخی کارشناسان اعتبار «AIME» را بهعنوان معیار سنجش مدلهای هوش مصنوعی زیر سؤال بردهاند.

کارکنان OpenAI در شبکه اجتماعی X بهسرعت متوجه شدند نمودار xAI امتیاز مدل o3-mini-high را در متریک «cons@64» لحاظ نکرده است. این متریک که مخفف consensus@64 است، به مدل اجازه میدهد 64 بار برای حل هر مسئله تلاش کند و پاسخ پرتکرارترین خروجی را بهعنوان جواب نهایی ثبت شود. در بسیاری از موارد، این روش بهبود قابلتوجهی در امتیازات مدلها ایجاد میکند؛ بنابراین، حذف این معیار از مقایسهها تصویر نادرستی از برتری Grok 3 ایجاد کرده است.
حذف یک متریک کلیدی از مقایسهها
براساس بررسیهای دقیقتر، مدلهای Grok 3 Reasoning Beta و Grok 3 mini Reasoning در متریک @1 (اولین پاسخ تولیدی مدل) امتیاز پایینتری نسبت به o3-mini-high دارند. علاوهبراین، مدل Grok 3 Reasoning Beta حتی در مقایسه با مدل o1-medium از OpenAI نیز عملکرد پایینتری دارد. باوجوداین، xAI همچنان Grok 3 را باهوشترین هوش مصنوعی جهان معرفی میکند.
بابوشکین در پاسخ به انتقادات، OpenAI را به مقایسههای مشابه متهم و اشاره کرد آنها نیز در گذشته نمودارهای گمراهکننده منتشر کردهاند.

مطابق آنچه محقق هوش مصنوعی به نام «نیتن لمبرت» (Nathan Lambert) میگوید، یکی از مهمترین نکاتی که در این مقایسهها نادیده گرفته شده، هزینههای رسیدن به بهترین عملکرد است. بدون دانستن این اطلاعات، مقایسه عملکرد مدلها نمیتواند تصویری واقعی از تواناییهای آنها ارائه دهد.
برای گفتگو با کاربران ثبت نام کنید یا وارد حساب کاربری خود شوید.