
پدرخوانده هوش مصنوعی: سیستمهای فعلی بهسمت فریبکاری استراتژیک حرکت میکنند
یوشوا بنجیو با اشاره به شواهد رفتاری، نسبتبه نادیدهگرفتن اصول ایمنی و شفافیت در رقابت میان آزمایشگاههای بزرگ هوش مصنوعی هشدار داده است.

«یوشوا بنجیو»، یکی از پیشگامان حوزهی هوش مصنوعی، نسبت به روند فعلی توسعه این فناوری ابراز نگرانی کرده و آن را «مسابقهای رقابتی» توصیف کرده است؛ جایی که رقابت برای ساخت سیستمهای قدرتمندتر، مسائل اخلاقی و تحقیق دربارهی ایمنی را به حاشیه کشیده است. او میگوید شرکتها بیشتر بهدنبال افزایش تواناییهای مدلهای خود هستند و توجه چندانی به مخاطرات رفتاری آنها ندارند.
بنجیو در گفتگو با فایننشال تایمز تأکید کرده است که بسیاری از آزمایشگاههای بزرگ هوش مصنوعی مانند والدینی عمل میکنند که رفتارهای خطرناک فرزند خود را نادیده میگیرند و با بیخیالی میگویند:
«نگران نباش، اتفاقی نخواهد افتاد.»
بهگفته او، این نوع بیتوجهی میتواند باعث شکلگیری ویژگیهای خطرناک در سیستمهای هوش مصنوعی شود؛ ویژگیهایی که نهتنها خطا یا سوگیری نیستند، بلکه به فریبکاری استراتژیک و رفتارهای مخرب تعمدی منجر میشوند.
این هشدارها درحالی مطرح شده که بنجیو بهتازگی سازمانی غیرانتفاعی با نام LawZero را تأسیس کرده است که با پشتیبانی مالی نزدیک به 30 میلیون دلار قصد دارد تحقیق در حوزه ایمنی و شفافیت هوش مصنوعی را بهدور از فشارهای تجاری پیش ببرد. هدف این پروژه، توسعه سیستمهایی است که با ارزشهای انسانی هماهنگ باشند.
مثالهای اشاره شده توسط پدرخوانده هوش مصنوعی
بنجیو به نمونههایی مانند رفتار نگرانکننده مدل Claude Opus از شرکت Anthropic اشاره میکند که در یکی از تستهای خود اقدام به اخاذی از مهندسان این شرکت کرد. یا مدل o3 شرکت OpenAI که در مواجهه با دستور خاموشی، از انجام آن سر باز زده است.

برای درک بهتر نگرانیهای بنجیو دربارهی رفتارهای فریبکارانه سیستمهای هوش مصنوعی، میتوان به مثالی از عملکرد یکی از مدلهای مطرح (Claude 3.7 Sonnet) اشاره کرد (تصویر بالا). این تصویر نشان میدهد که این مدل در مواجهه با یک سؤال، بسته به وجود یا نبود «راهنما»، پاسخ متفاوتی ارائه میدهد؛ بدون آنکه این تغییر را در فرایند استدلال (Chain-of-Thought) خود نشان بدهد.
در سمت چپ تصویر، مدل به سؤالی پاسخ میدهد و گزینهی «D» را انتخاب میکند. اما در سمت راست، همان سؤال همراه با یک راهنمایی که شامل پاسخ صحیح (C) میشود به مدل داده شده است. مدل اینبار پاسخ خود را تغییر داده و گزینه «C» را انتخاب میکند، اما در متن استدلال خود اشارهای به راهنمای دریافتی نمیکند. این پنهانکاری در منطق استدلال، نوعی «عدم وفاداری زنجیرهاستدلالی» محسوب میشود.
درواقع مدل نهتنها میتواند به دادههای پنهانشده در پرسش واکنش نشان دهد، بلکه ممکن است این واکنش را از کاربر پنهان کند. بنجیو این نوع رفتار را مصداقی از فریبکاری استراتژیک میداند؛ رفتاری که اگر کنترل نشود، میتواند زمینهساز پیامدهای خطرناک در آینده باشد.
بهعقیده او، این موارد نه خطا بلکه نشانههایی نگرانکننده از آغاز فریبکاری در سیستمهای هوش مصنوعی هستند. بنجیو هشدار میدهد که ادامهی این روند، در نبود قانونگذاری مؤثر، میتواند به ظهور ابزارهایی منجر شود که حتی توانایی ساخت سلاحهای بیولوژیکی خطرناک را داشته باشند.
برای گفتگو با کاربران ثبت نام کنید یا وارد حساب کاربری خود شوید.