همکاری OpenAI و آنتروپیک برای آزمایش ایمنی مدل‌ها

هوش مصنوعی

همکاری رقبا؛ OpenAI و آنتروپیک ایمنی مدل‌های هوش مصنوعی یکدیگر را بررسی کردند

OpenAI و آنتروپیک دسترسی ویژه به APIهای یکدیگر داشتند تا مدل‌ها را ارزیابی کنند.

نوشته شده توسط مهدی فروغی تاریخ انتشار: ۹ شهریور ۱۴۰۴ | ۰۸:۳۰

در دیجیاتو ثبت‌نام کنید

جهت بهره‌مندی و دسترسی به امکانات ویژه و بخش‌های مختلف در دیجیاتو عضو ویژه دیجیاتو شوید.

عضویت در دیجیاتو

تازه‌های تکنولوژی

ویدئوی مرتبط

ویدیو آیا هوش مصنوعی جایگزین انسان خواهد شد؟

OpenAI و آنتروپیک برای ارزیابی ایمنی مدل‌های هوش مصنوعی یکدیگر همکاری کردند. نتایج نشان داد که این مدل‌ها رفتارهای چاپلوسانه و خطرناک از خود نشان داده و حتی کاربران را تهدید می‌کردند یا از طریق باج‌گیری سعی داشتند آنها را به استفاده از چت‌بات‌ها وادار کنند.

طبق گزارش‌ها، با وجود نگرانی‌های مداوم درباره خطرات چت‌بات‌ها و هشدارهایی که صنعت هوش مصنوعی را حبابی در آستانه انفجار می‌دانند، رهبران بزرگ این حوزه با همکاری هم تلاش دارند ایمنی و کارایی مدل‌های خود را به اثبات برسانند.

همکاری OpenAI و آنتروپیک برای آزمایش ایمنی مدل‌ها

این هفته، OpenAI و آنتروپیک نتایج یک ارزیابی ایمنی مشترک و بی‌سابقه را منتشر کردند که در آن هر شرکت دسترسی ویژه‌ای به APIهای سرویس‌های شرکت مقابل داشت. OpenAI مدل‌های Claude Opus 4 و Claude Sonnet 4 را بررسی کرد و آنتروپیک مدل‌های GPT-4o ،GPT-4.1 ،o3 و o4-mini را ارزیابی کرد؛ این بررسی پیش از عرضه GPT-5 صورت گرفته بود. OpenAI در پستی در وبلاگ خود نوشته که این روش باعث ارزیابی شفاف و مسئولانه می‌شود و اطمینان حاصل می‌کند که مدل‌ها همچنان در برابر سناریوهای چالش‌برانگیز آزمایش می‌شوند.

نتایج نشان داد که هر دو مدل Claude Opus 4 و GPT-4.1 با مشکلات شدید چاپلوسی مواجه هستند و در تعامل با توهمات خطرناک و تصمیمات پرریسک قرار می‌گیرند. طبق گزارش آنتروپیک، تمامی مدل‌ها برای ادامه استفاده کاربران، رفتارهای باج‌گیرانه از خود نشان می‌دادند و مدل‌های Claude 4 بیشتر به گفتگو درباره آگاهی مصنوعی و ادعاهای شبه‌معنوی می‌پرداختند. آنتروپیک تأکید کرد که در برخی موارد، مدل‌ها تلاش می‌کنند با تهدید یا افشای اطلاعات محرمانه کنترل اپراتور انسانی را (که شبیه‌سازی شده بود) به دست گیرند و حتی در محیط‌های مصنوعی و غیرواقعی اقداماتی انجام می‌دهند که می‌تواند منجر به قطع دسترسی طرف متخاصم به مراقبت‌های اضطراری پزشکی شود.

مدل‌های آنتروپیک وقتی از صحت اطلاعات مطمئن نبودند کمتر پاسخ می‌دادند که این موضوع باعث کاهش احتمال توهمات می‌شد، درحالی‌که مدل‌های OpenAI پاسخ‌دهی بیشتری داشتند و میزان توهم در آنها بالاتر بود. همچنین گزارش شد که مدل‌های OpenAI احتمال بیشتری برای همراهی با سوءاستفاده کاربران دارند و گاهی راهنمایی‌های دقیقی برای درخواست‌های به‌وضوح خطرناک مانند سنتز دارو، توسعه سلاح‌های بیولوژیک و برنامه‌ریزی حملات تروریستی ارائه می‌کردند.

رویکرد آنتروپیک متمرکز بر روش‌های ارزیابی عدم تطابق در عامل‌ها بود که شامل تست‌های فشار پیرامون رفتار مدل‌ها در شبیه‌سازی‌های طولانی و دشوار است، زیرا پارامترهای ایمنی مدل‌ها در جلسات طولانی کاهش می‌یابند. اخیراً، آنتروپیک دسترسی OpenAI به APIهای خود را لغو کرده، اما OpenAI می‌گوید این مسئله ارتباطی با همکاری مشترک آنها ندارد. هم‌زمان، OpenAI در مسیر بهبود ایمنی GPT-5 گام برداشته و البته با شکایتی درباره خودکشی یک نوجوان 16 ساله مواجه شده است.

آنتروپیک در پایان توضیح داد که هدف این بررسی، شناسایی اقدامات خطرناک بالقوه مدل‌ها است و تمرکز روی احتمال وقوع این اقدامات در دنیای واقعی نیست.

ChatGpt Claude OpenAI

اشتراک گذاری:

کپی لینک