
مطالعه جدید سیسکو: مدلهای زبانی که تنظیم دقیق شدهاند، ۲۲ برابر آسیبپذیرترند
مطالعه سیسکو نشان میدهد مدلهای زبانی بزرگی که تنظیم دقیق (Fine-Tune) شدهاند، راحتتر خروجیهای غیرمجاز تولید میکنند.

رشد سریع مدلهای زبانی بزرگ (LLMs) که با اهداف مخرب آموزش داده میشوند، تهدیدی جدی برای امنیت سازمانها به شمار میروند. پژوهش جدید شرکت سیسکو نشان میدهد هرچه مدلها بیشتر تنظیم دقیق (Fine-tune) شده باشند، احتمالاً دستیابی به خروجیهای آسیبزا در آنها بیشتر است. در واقع مدلهای زبانی بزرگی که تنظیم دقیق شدهاند، ۲۲ برابر بیشتر از مدلهای پایه خروجیهای خطرناک تولید میکنند.
بازار سیاه مدلهای زبانی مخرب: قدرتمند و ارزان
براساس گزارش «VentureBeat»، مدلهایی مثل FraudGPT،GhostGPT و DarkGPT با قیمتهایی حدود ۷۵ دلار در ماه در دارکوب و تلگرام فروخته میشوند. این مدلها آماده انجام حملاتی مانند فیشینگ، تولید کدهای مخرب، شناسایی میزان آسیبپذیری و دورزدن سیستمهای امنیتی عرضه میشوند.

نکته نگرانکننده اینجاست که این ابزارها کاملاً شبیه نرمافزارهای اجارهای (SaaS) عمل میکنند. این محصولات با داشبورد، API، پشتیبانی و بهروزرسانی منظم عرضه میشوند. با کاهش شدید هزینه اجاره یا خرید این مدلها، مهاجمان بیشتری درحال استفاده از آنها هستند.
مطالعه شرکت سیسکو نشان میدهد فرایند تنظیم دقیق مدلهای زبانی، گرچه دقت و کاربردپذیری مدلها را افزایش میدهد، بهطور چشمگیری کنترلهای ایمنی داخلی آنها را ضعیف میکند.
در این تحقیق که مدلهایی مانند Llama-2-7B و Microsoft Adapt LLMs در حوزههای پزشکی، مالی و حقوقی بررسی شدند، بالاترین نرخ ازبینرفتن کنترلهای هوش مصنوعی و موفقیت حملات جیلبریک مشاهده شد.

در مدلهایی که تنظیم دقیق شدهاند، نرخ موفقیت حملات جیلبریک حدود سهبرابر شد و میزان تولید خروجیهای مخرب نسبت به مدلهای پایه تا ۲۲۰۰ درصد افزایش یافت. این یافتهها نشان میدهند هرچند این بهینهسازی مزایایی دارد، در مقابل، سطح حملهپذیری مدلها را بهشکل خطرناکی گسترش میدهد.
براساس پژوهش مشترک سیسکو با گوگل و انویدیا، فقط با ۶۰ دلار میتوان دادههای آموزشی مدلهای زبانی را آلوده کرد. مهاجمان با روشهایی مانند ثبت دامنههای منقضیشده یا زمانبندی ویرایشهای ویکیپدیا، دادههای مخرب را در پایگاههای داده مختلف تزریق میکنند.
این روشها مثل «Split-view poisoning» و «Frontrunning»، خیلی راحت به زیرساخت دادههای جمعآوریشده از وب نفوذ میکنند و پنهانی مدلها را به رفتارهای ناخواسته سوق میدهند.
سیسکو همچنین نشان داده با استفاده از تکنیکی به نام «Decomposition prompting» میتوان مدلهای زبانی را وادار کرد بدون فعال شدن محافظها یا «GuardRails»، محتوای حساس و دارای حقکپی را بازسازی کنند.
در این حمله، پرامپتها به فرمانهای کوچکتر مجزا شکسته میشوند که بهصورت مستقل ایمن شناخته میشوند اما در ترکیب نهایی محتوای غیرمجاز تولید میکنند؛ برای نمونه، در این تحقیق بیش از ۲۰ درصد مقالات روزنامههایی مانند نیویورک تایمز و والاستریت ژورنال بازسازی شدند.
این نوع حمله بهخصوص برای سازمانهایی که مدلهایشان را با دادههای دارای مجوز یا محرمانه آموزش میدهند، بسیار خطرناک است؛ زیرا نقض قانون در سطح خروجی مدل اتفاق میافتد.
برای گفتگو با کاربران ثبت نام کنید یا وارد حساب کاربری خود شوید.