
بازی سوپر ماریو به بنچمارکی برای مقایسه عملکرد مدلهای هوش مصنوعی تبدیل شد
مدل شرکت OpenAI عملکرد خوبی در این بازی ندارد.

محققان گروه «Hao AI Lab» در دانشگاه کالیفرنیا سن دیگو، هوش مصنوعی را وارد دنیای بازیهای کلاسیک کردند و مدلهای هوش مصنوعی مطرح را در نسخهای خاص از «Super Mario Bros» به چالش کشیدند. این نسخه از بازی که در شبیهساز اجرا میشد، به کمک فریمورک داخلی «GamingAgent» به هوش مصنوعی امکان کنترل مستقیم ماریو را میداد.
عملکرد ضعیف مدلهای گوگل و OpenAI
در این رقابت بین هوش مصنوعیهای شناختهشده، مدل Claude 3.7 از شرکت آنتروپیک بهترین عملکرد را داشت و پس از آن نسخه Claude 3.5 قرار گرفت. مدلهای معروفی مانند جمینای ۱.۵ پرو از گوگل و GPT-4o از OpenAI نتوانستند چندان خوب عمل کنند.
نکته جالب اینکه مدلها برای هدایت ماریو باید دستورات را بهصورت کدهای پایتون تولید میکردند. GamingAgent به مدلها اطلاعات اولیهای مثل اینکه مانع یا دشمن نزدیک است، به چپ بپر و اسکرینشاتهایی از محیط بازی ارائه میکرد. سپس مدلها باید با تحلیل این دادهها، استراتژیهایی برای عبور از موانع، جمعآوری سکهها و پیشرفت در مراحل طراحی میکردند.

یکی از نکات جالب عملکرد ضعیفتر مدلهای مبتنیبر استدلال گامبهگام مانند نسخه GPT-4o reasoning نسبت به مدلهای معمولی بود. برخلاف انتظار، مدلهای استدلالگر که در حل مسائل پیچیدهتر و تفکر منطقی عملکرد بهتری دارند، در محیطهای بلادرنگ (real-time)، مثل بازی سوپر ماریو، با مشکل مواجه شدند. علت اصلی این ضعف زمانبر بودن تصمیمگیری است که گاهی چند ثانیه طول میکشد و در بازیهایی مثل ماریو تفاوت پرش موفق یا سقوط را رقم میزند.
استفاده از بازی برای مقایسه عملکرد مدلهای هوش مصنوعی
استفاده از بازیها برای بنچمارککردن هوش مصنوعی کار جدیدی نیست و از دههها پیش وجود داشته اما برخی کارشناسان معتقدند مقایسه عملکرد AI در بازیها با پیشرفت واقعی در هوش مصنوعی عمومی گمراهکننده است. بازیها نسبت به دنیای واقعی انتزاعیتر و سادهترند و حجم دادههای در دسترس برای تمرین نیز تقریباً بینهایت است.
این آزمایشهای نمایشی و رقابتهای گیمینگ به بخشی از آن چیزی تبدیل شدهاند که «آندری کارپاتی»، پژوهشگر ارشد و همبنیانگذار OpenAI، آن را بحران ارزیابی توصیف میکند. کارپاتی در پستی در شبکه اجتماعی ایکس نوشت:
«راستش را بخواهید، دیگر نمیدانم باید به کدام معیارها نگاه کنم. خلاصه اینکه اصلاً نمیدانم این مدلها دقیقاً چقدر خوباند.»
این آزمایش در شرایطی انجام شده که شرکتها بهدنبال روشهای جدیدی برای ارزیابی هوش مصنوعی فراتر از معیارهای سنتی مثل MMLU یا BIG-bench هستند. بازیهای بلادرنگ شاید معیار کاملی نباشند اما نشان میدهند مدلهای زبانی هنوز در تلفیق سرعت تصمیمگیری و استدلال منطقی، چالشهای اساسی دارند.
برای گفتگو با کاربران ثبت نام کنید یا وارد حساب کاربری خود شوید.