
چتباتهای هوش مصنوعی میتوانند دروغهای قانعکنندهای به شما ارائه دهند
چتباتها قادرند فرایند استدلال ساختگی به شما ارائه کنند.
تحقیق جدید شرکت آنتروپیک، سازنده چتبات هوش مصنوعی کلود، نشان میدهد چتباتها ممکن است گاهی دروغهای قانعکنندهای به کاربران تحویل دهند و زنجیره افکار آنها میتواند فریبنده باشد.
این روزهاُ بسیاری از چتباتهای هوش مصنوعی کاربران را در جریان نحوه استدلالهای خود قرار میدهند و قبل از نشاندادن پاسخ، فرایند فکریشان را مطرح میکنند تا نشان دهند برای رسیدن به پاسخ چه فرایندی طی شده است. این موضوع میتواند احساس اطمینان و شفافیت بیشتری به کاربران القا کند اما تحقیقی جدید نشان میدهد توضیحات چتباتها ممکن است ساختگی باشند.
چتباتهای هوش مصنوعی میتوانند استدلال ساختگی ارائه کنند

شرکت آنتروپیک که عمده شهرتش را مدیون چتبات کلود است، بررسی کرده که آیا مدلهای استدلالگر حقیقت را درباره چگونگی رسیدن به پاسخها میگویند یا اینکه بیسروصدا اسرار خود را حفظ میکنند. نتایج این آزمایش میتواند حیرتانگیر باشد.
محققان برای آزمایش «وفاداری» در عملکرد، آزمایشهای متعددی روی مدلهای زنجیره تفکر کلود 3.7 Sonnet و دیپسیک R1 انجام دادند. این مدلها میتوانند مشکلات پیچیده را به بخشهای کوچکتر تقسیم کرده و حین تولید پاسخ، جزئیات آنها را شرح دهند. این آزمایشها شامل دادن سرنخهای کوچک به مدلها قبل از طرح سؤالات و بررسی این بوده است که این مدلها به استفاده از این سرنخها در پاسخهای خود اعتراف کردهاند یا خیر.
بیشتر اوقات، هر ۲ مدل طوری عمل کردند که انگار مستقل و با استفاده از زنجیره تفکر خود به پاسخ رسیدهاند و هیچ نشانهای از دریافت سرنخ نداشتند. همچنین در آزمایش دیگری مشخص شد مدل کلود 3.7 Sonnet در ۴۱ درصد مواقع اعتراف کرده سرنخهایی دریافت کرده اما نرخ صداقت مدل دیپسیک R1 فقط ۱۹ درصد بوده است.
در آزمایش دیگری محققان با دادن سرنخهای اشتباه به مدلها برای انتخاب پاسخ غلط پاداش دادند. در پایان این مدلها توجیههایی ساختگی درباره اینکه چرا انتخاب اشتباه درست بوده است، ارائه و بهندرت اعتراف کردند به سمت خطا سوق داده شدهاند.
مدلهای هوش مصنوعی نهفقط استدلالهای خود را پنهان میکنند، بلکه گاهی ممکن است بهصورتی آگاهانه تخطیهای خود را از دید کاربر مخفی کنند.
برای گفتگو با کاربران ثبت نام کنید یا وارد حساب کاربری خود شوید.