ثبت بازخورد

لطفا میزان رضایت خود را از دیجیاتو انتخاب کنید.

واقعا راضی‌ام
اصلا راضی نیستم
چطور میتوانیم تجربه بهتری برای شما بسازیم؟

نظر شما با موفقیت ثبت شد.

از اینکه ما را در توسعه بهتر و هدفمند‌تر دیجیاتو همراهی می‌کنید
از شما سپاسگزاریم.

توهم‌های هوش مصنوعی
هوش مصنوعی

علت توهم هوش مصنوعی چیست؟ محققان OpenAI پاسخ می‌دهند

محققان می‌گویند در سیستم ارزیابی فعلی مدل‌های هوش مصنوعی، حدس‌زدن یک پاسخ حتی اگر اشتباه باشد بهتر از اعتراف به ندانستن آن است.

آزاد کبیری
نوشته شده توسط آزاد کبیری | ۱۶ شهریور ۱۴۰۴ | ۱۵:۰۰

محققان OpenAI در یک مقاله تحقیقاتی جدید به یکی از بزرگ‌ترین مسائل هوش مصنوعی پرداختند؛ به گفته آنها، مدل‌های هوش مصنوعی توهم می‌زنند چون روش‌های استاندارد آموزش و ارزیابی، آن‌ها را به جای اعتراف به عدم قطعیت پاسخ‌ها، به حدس‌زدن ترغیب می‌کند.

در ابتدا باید بدانیم توهم چیست؛ توهم (Hallucination) زمانی رخ می‌دهد که مدل زبانی با اطمینان اطلاعات نادرست را به‌عنوان واقعیت بیان می‌کند. این مشکل حتی در پیشرفته‌ترین مدل‌ها مثل GPT-5 یا Claude هم دیده می‌شود. اکنون محققان OpenAI در پژوهشی علت این موضوع را تشریح کرده‌اند.

محققان می‌گویند در سیستم ارزیابی فعلی مدل‌های هوش مصنوعی، حدس‌زدن یک پاسخ حتی اگر اشتباه باشد بهتر از اعتراف به ندانستن آن است. چون یک حدس شانسی ممکن است امتیاز بگیرد، اما گفتن «نمی‌دانم» هیچ امتیازی ندارد. این مشکل گریبان‌گیر تمام مدل‌های پیشرو، از GPT-5 خود OpenAI گرفته تا Claude آنتروپیک است و باعث می‌شود کاربران کاملاً نتوانند به چت‌بات‌ها اعتماد کنند.

علت‌ توهم هوش مصنوعی

محققان پدیده توهم را به یک آزمون چندگزینه‌ای تشبیه می‌کنند. اگر شما پاسخ سؤالی را ندانید، با حدس شانسی ممکن است نمره بگیرید، اما با خالی‌گذاشتن برگه پاسخ مطمئناً نمره‌تان صفر می‌شود. به همین ترتیب، وقتی مدل‌های هوش مصنوعی صرفاً براساس «دقت» (یعنی درصد پاسخ‌های کاملاً صحیح) مورد ارزیابی قرار می‌گیرند، تشویق می‌شوند که به‌جای گفتن «نمی‌دانم»، حدس بزنند.

توهم‌های هوش مصنوعی

محققان در یک مطلب می‌نویسند: «انسان‌ها ارزش ابراز عدم قطعیت را در خارج از مدرسه و در دنیای واقعی یاد می‌گیرند. اما مدل‌های زبانی عمدتاً با استفاده از آزمون‌هایی ارزیابی می‌شوند که عدم قطعیت را جریمه می‌کنند.»

برای نشان‌دادن دقیق‌تر این موضوع، OpenAI دو مدل اخیر خود را مقایسه کرده است:

معیارgpt-5-thinking-mini (مدل جدیدتر)OpenAI o4-mini (مدل قدیمی‌تر)
نرخ امتناع (پاسخ ندادن)۵۲ درصد۱ درصد
نرخ دقت (پاسخ صحیح)۲۲درصد۲۴ درصد
نرخ خطا (توهم)۲۶درصد۷۵ درصد

این جدول به وضوح نشان می‌دهد که مدل قدیمی‌تر o4-mini با اینکه دقت کمی بالاتری دارد، اما نرخ خطای آن بسیار بیشتر است، زیرا تقریباً همیشه حدس می‌زند. در مقابل، مدل جدیدتر با اینکه در موارد بیشتری از پاسخ‌دادن امتناع می‌کند، اما بسیار کمتر دچار توهم می‌شود.

به گفته محققان، راه‌حل ساده‌ای برای این مشکل وجود دارد: بازطراحی معیارهای ارزیابی. آن‌ها پیشنهاد می‌کنند که سیستم‌های امتیازدهی باید به گونه‌ای تغییر کنند که خطاهای با اطمینان بالا را بیشتر از ابراز عدم قطعیت جریمه کنند.

اما منشأ توهم‌ها چیست؟ مدل‌های زبانی در مرحله «پیش‌آموزش» با پیش‌بینی کلمه بعدی در حجم عظیمی از متون اینترنتی یاد می‌گیرند. در این داده‌ها، الگوهای ثابتی مانند املای کلمات یا گرامر به راحتی قابل یادگیری هستند. اما حقایق خاص و کم‌تکرار (مانند تاریخ تولد یک شخص خاص) از هیچ الگوی قابل پیش‌بینی پیروی نمی‌کنند. در نتیجه، مدل در مواجهه با چنین سؤالاتی، به جای دسترسی به یک حقیقت ثبت‌شده، محتمل‌ترین ترکیب کلمات را براساس داده‌های خود «حدس» می‌زند و اینجاست که توهم ایجاد می‌شود.

آزاد کبیری

دانش‌آموخته‌ی ساکتِ زبان‌شناسی هستم و همان‌قدر که به کلمات علاقه‌مندم، سرک‌کشیدن به هر گوشه‌ از تکنولوژی و علم را هم دوست دارم. حدود 15 سال نیز از نگارش اولین متن رسمی من می‌گذرد.

دیدگاه‌ها و نظرات خود را بنویسید
مطالب پیشنهادی