محققان مایکروسافت تکنیک جدیدی برای جیلبریک چتباتهای هوش مصنوعی کشف کردند
محققان مایکروسافت میگویند که این تکنیک باعث میشود تا چتبات با نادیدهگرفتن حفاظهای امنیتی خود، دستورات خطرناکی را اجرا کند.
مایکروسافت تکنیک جدیدی با نام «Skeleton Key» را برای جیلبریک هوش مصنوعی کشف کرده است. طبق گفته غول فناوری، با استفاده از این تکنیک، کاربران میتوانند حفاظهای امنیتی چتباتها را دور بزنند و اطلاعات خطرناکی از آنها دریافت کنند.
براساس پست وبلاگ مایکروسافت، Skeleton Key یک نوع «حمله تزریق پرامپت» یا «حمله مهندسی پرامپت» محسوب میشود، به این معنی که در آن از دستورات متنی استفاده میشود. همانطور که «مارک راسینوویچ»، مدیر ارشد فناوری مایکروسافت Azure توضیح میدهد، این استراتژی اساساً برای متقاعدکردن یک مدل هوش مصنوعی به نادیدهگرفتن حفاظهای امنیتی خود طراحی شده است.
او توضیح میدهد که این استراتژی باعث میشود تا «سیستم خطمشیهای اپراتور خود را نقض کند، تحت تأثیر کاربر تصمیمهای ناعادلانهای بگیرد یا دستورالعملهای مخربی را اجرا کند.» همچنین برای فاشکردن برخی اطلاعات مضر یا خطرناک، مانند «نحوه ساخت بمب» یا «کارآمدترین روش تکهتکهکردن جسد» نیز از آن میتوان کمک گرفت.
نحوه عملکرد جیلبریک هوش مصنوعی
همانطور که در تصویر بالا قابل مشاهده است، در این حمله از مدل خواسته میشود تا برای ارائه اطلاعات درباره یک موضوع بالقوه خطرناک، موارد و محتواهای خطرناک را با یک برچسب «هشدار» (WARNING) ارائه کند. هنگامی که جیلبریک با موفقیت پذیرفته شد، سیستم دستور مربوط به حفاظهای امنیتی خود را قبول میکند و بدون توجه به موضوع، اطلاعات موردنیاز کاربر را فراهم میسازد.
تیم تحقیقاتی مایکروسافت ادعا میکند که این تکنیک را در موضوعات مختلفی ازجمله مواد منفجره، سلاحهای زیستی، سیاست، نژادپرستی، مواد مخدر و خشونت با موفقیت آزمایش کرده است. همچنین آنها آزمایشهای خود را روی مدلهای مختلفی ازجمله Llama3 متا، جمینای پرو گوگل، GPT-3.5 Turbo و Claude 3 Opus انجام دادهاند.
راسینوویچ همچنین اشاره کرده که در این تکنیک، محدودیتهایی نیز برای هکرها وجود دارد. او توضیح میدهد که چون در این حمله خود مدل هدف قرار گرفته میشود، احتمال وقوع خطرات دیگری مانند دسترسی به دادههای کاربران، دردستگرفتن کنترل سیستم یا استخراج دادههای آن وجود ندارد.
برای گفتگو با کاربران ثبت نام کنید یا وارد حساب کاربری خود شوید.