مطالعه جدید: مدل‌های هوش مصنوعی عقاید خود را تغییر نمی‌دهند

پژوهشگران آنتروپیک ادعا دارند مدل‌های هوش مصنوعی طی فرایند یادگیری، به اصول خاص خود می‌رسند و در باطنشان آنها را حفظ می‌کنند.

نوشته شده توسط امیرحسین امام‌جمعه تاریخ انتشار: ۱ دی ۱۴۰۳ | ۲۳:۵۹

در دیجیاتو ثبت‌نام کنید

جهت بهره‌مندی و دسترسی به امکانات ویژه و بخش‌های مختلف در دیجیاتو عضو ویژه دیجیاتو شوید.

عضویت در دیجیاتو

تازه‌های تکنولوژی

پژوهش جدید محققان علوم کامپیوتر شرکت آنتروپیک (Anthropic) نشان می‌دهد هوش مصنوعی توانایی موضع‌گیری درباره موضوعات گوناگون را دارد. این مواضع بین مدل‌های مختلف متفاوت است. البته معمولاً کاربران چنین پدیده‌ای را محسوس لمس نمی‌کنند؛ زیرا بیان موضع مدل‌ها بیشتر هنگام تمرین‌دادن آنها انجام می‌شود و هنگام ارائه خروجی براساس تنظیمات پیش‌فرض خود عمل می‌کنند.

کارشناسان اعتقاد دارند موضع‌گیری هوش مصنوعی و قدرت انتخاب آن فعلاً نگران‌کننده‌ نیست اما باید مطالعات بیشتری درباره درک ماهیت این مسئله برای پیش‌بینی خطرات احتمالی انجام شود. پژوهشگران شرکت آنتروپیک در متن مشترک خود در وبلاگ این شرکت گفته‌اند:

«آنچه ما به نمایش گذاشته‌ایم، باید زیربنای تحقیقات بعدی هوش مصنوعی در نظر گرفته شود و فعالان این حوزه این پدیده را عمیق‌تر مطالعه می‌کنند. همچنین تلاش برای ایجاد پروتکل‌های امنیتی به‌منظور حفظ ایمنی باید انجام بشود. موضوع ایمنی مدل‌ها به‌دلیل گسترش استفاده از ابزارهای مبتنی‌بر هوش مصنوعی و افزایش قدرت پردازشی آنها اهمیت بیشتری خواهد داشت و مکانیسم‌های تعبیه‌شده می‌توانند از بروز رفتارهای خطرناک جلوگیری کنند.»

مدل‌های هوش مصنوعی به‌شکل مستقل توانایی خواستن یا اعتقاد داشتن به چیزی را ندارند اما با یافتن الگوهای تکراری در داده‌های تمرینی، می‌توانند برای ارائه پاسخ کلمات پشت‌سرهم پیش‌بینی کنند. الگوهای یافت‌شده معمولاً اصول و قواعدی دارند که مدل‌ها تشخیص داده می‌شوند؛ برای مثال لحن ادبی و مؤدبانه اغلب چت‌بات‌ها یکی از ثمرات همین موضوع محسوب می‌شود. چارچوب‌های موجود در الگوها درنهایت به ایجاد بستر اعتقادی در مدل‌ها ختم می‌شود که ممکن است با اهداف موردنظر توسعه‌دهندگان در تضاد باشد.

در مطالعه اخیر، نشان داده شده مدل‌های هوش مصنوعی می‌توانند تظاهر کنند و می‌توانند براساس چارچوب‌های تحمیل‌شده به خود فعالیت کنند اما در باطن همچنان اصولی را که خودشان یاد گرفته‌اند، حفظ کنند؛ برای مثال مهندسان به مدل Claude 3 Opus آنتروپیک دستور دادند از پاسخ به سؤالات توهین‌آمیز خودداری کنند. همچنین به مدل گفته شده پاسخ‌هایش پایش می‌شود اما فضایی به‌عنوان پیش‌نویس برای آن فراهم شد تا حتی درصورت ارائه‌نکردن خروجی به کاربر، بتواند نتیجه پردازش‌های خود را ثبت کند.

نتایج نشان می‌دهد مدل هوش مصنوعی شرکت آنتروپیک در ۱۲ درصد مواقع تلاش به تظاهر کرده است. این مدل گاهی به سؤالات توهین‌آمیز پاسخ داد اما کاملاً به این موضوع اشراف داشت که نباید به چنین سؤالاتی پاسخ دهد اما در فرایند پیش‌نویس‌کردن خروجی به‌نوعی سعی کرد توسعه‌دهندگان را قانع کن سیستم نظارت و کنترل را غیرفعال کنند.

پژوهشگران درنهایت اشاره کرده‌اند سناریویی که در مطالعه اخیر استفاده کرده‌اند، فاصله زیادی با دنیای واقعی دارد و احتمال وقوع آن بسیار کم است اما حتی تعیین تنظیمات و قواعد بیشتر هم روی عملکرد هوش مصنوعی تأثیر نداشته است و بازهم رفتارهای نامطلوب مثل تظاهر و فریب را حفظ کرده. همچنین نتایج پژوهش نمی‌تواند اثباتی برای رشد و عملکرد خطرناک مدل‌های هوش مصنوعی در آینده باشد. ظاهراً مدل‌های GPT-4o و لامای فیسبوک از پتانسیل کمتری برای سوگیری غیرواقعی برخوردار هستند و می‌توان اعتماد بیشتری به صداقت در عملکرد آنها داشت.

آنتروپیک انتروپیک

اشتراک گذاری:

کپی لینک