ثبت بازخورد

لطفا میزان رضایت خود را از دیجیاتو انتخاب کنید.

واقعا راضی‌ام
اصلا راضی نیستم
چطور میتوانیم تجربه بهتری برای شما بسازیم؟

نظر شما با موفقیت ثبت شد.

از اینکه ما را در توسعه بهتر و هدفمند‌تر دیجیاتو همراهی می‌کنید
از شما سپاسگزاریم.

رونمایی آنتروپیک از دو قابلیت «جست‌وجوی وب» و «حالت صوتی مکالمه‌محور» در Claude
هوش مصنوعی

مطالعه جدید آنتروپیک: چه چیزی به هوش مصنوعی شخصیت می‌دهد و آن را شرور می‌کند؟

تغییرات شخصیتی یک مدل بیش از هر عامل دیگری وابسته به نحوه آموزش است.

حمید گنجی
نوشته شده توسط حمید گنجی | ۱۲ مرداد ۱۴۰۴ | ۱۲:۰۰

استارتاپ آنتروپیک به‌تازگی نتایج پژوهشی را منتشر کرده است که به بررسی چگونگی تغییر شخصیت یک سیستم هوش مصنوعی از جمله لحن، پاسخ‌ها و انگیزه کلی و دلایل این تغییرات می‌پردازد.

به گزارش ورج، پژوهشگران آنتروپیک همچنین بررسی کرده‌اند که چه عواملی باعث می‌شود یک مدل شرور شود. «جک لیندزی»، یکی از پژوهشگران آنتروپیک که در زمینه تفسیرپذیری مدل‌ها فعالیت می‌کند، در مصاحبه با این نشریه جزئیات بیشتری از نحوه تفسیر شخصیت یک مدل هوش مصنوعی را فاش کرد.

هوش مصنوعی چگونه شخصیت پیدا می‌کند؟

لیندزی می‌گوید: «یکی از چیزهایی که اخیراً زیاد مشاهده شده این است که مدل‌های زبانی می‌توانند وارد حالت‌های متفاوتی شوند که به نظر می‌رسد براساس شخصیت‌های مختلف عمل می‌کنند. این اتفاق می‌تواند در جریان یک گفتگو اتفاق بیفتد. گفتگوی شما ممکن است باعث شود مدل رفتاری عجیب از خود نشان دهد، مثلاً بیش از حد چاپلوس شود یا حالت شرورانه پیدا کند و این موضوع می‌تواند در طول فرایند آموزش نیز رخ دهد.»

مدل‌های هوش مصنوعی Claude 3

البته در ابتدا باید بدانید که هوش مصنوعی به‌خودی‌خود شخصیت یا ویژگی‌های رفتاری واقعی ندارد. این فناوری یک ابزار تطبیق الگو در مقیاس وسیع است. اما برای اهداف این مقاله، پژوهشگران از واژه‌هایی مانند «چاپلوس» یا «شرور» استفاده می‌کنند تا توضیح مطالعه و چرایی آن برای عموم مردم قابل‌فهم‌تر باشد.

شگفت‌آورترین بخش این پژوهش برای محققان آنتروپیک میزان تأثیرگذاری داده‌ها بر ویژگی‌های یک مدل هوش مصنوعی بود. محقق آنتروپیک می‌گوید یکی از نخستین واکنش‌های مدل به دریافت داده نه‌تنها به‌روزرسانی سبک نوشتاری یا پایگاه دانسته‌هایش بود، بلکه شامل تغییر در شخصیت آن نیز می‌شد. لیندزی گفت: «اگر مدل را وادار کنید که شرورانه رفتار کند، بردار شرارت در آن فعال می‌شود.»

پس از شناسایی بخش‌هایی از شبکه عصبی مدل هوش مصنوعی که در سناریوهای خاص فعال می‌شوند و مرتبط با ویژگی‌های شخصیتی خاص هستند، پژوهشگران بررسی کردند که چگونه می‌توان این تمایلات را کنترل کرد و مانع از شکل‌گیری آن شخصیت‌ها شد.

یکی از روش‌هایی که استفاده شد این بود که از مدل خواستند تا بدون آموزش با استفاده از داده‌ها، فقط نگاهی سطحی به آنها بیندازد و در همین حین بررسی کردند که کدام نواحی از شبکه عصبی مدل هنگام مشاهده چه نوع داده‌ای فعال می‌شوند. برای مثال، اگر ناحیه مرتبط با چاپلوسی فعال می‌شد، پژوهشگران آن داده را به‌عنوان داده مسئله‌دار علامت‌گذاری می‌کردند و احتمالاً تصمیم می‌گرفتند آن را وارد فرایند آموزش نکنند.

لیندزی دراین‌باره گفت: «فقط با مشاهده اینکه پیش از آموزش، یک مدل چگونه داده‌ها را تفسیر می‌کند، می‌توان پیش‌بینی کرد که چه داده‌هایی باعث می‌شوند مدل شرور شود، یا بیشتر دچار توهم شود، یا چاپلوس‌تر رفتار کند.»

روش دیگری که توسط محققان آزمایش شد این بود که مدل را همچنان با داده‌های معیوب آموزش دهند، اما ویژگی‌های نامطلوب را به‌صورت کنترل‌شده در حین آموزش تزریق کنند. لیندزی این فرایند را به یک واکسن تشبیه می‌کند. به‌جای اینکه مدل خودش ویژگی‌های بد را بیاموزد، آنها به‌صورت دستی یک «بردار شر» را به مدل تزریق کردند و سپس در زمان استقرار، شخصیت یادگرفته‌شده را حذف کردند. این روش برای هدایت لحن و ویژگی‌های مدل در مسیر درست کارساز بود.

مقاله جدید آنتروپیک حاصل برنامه Anthropic Fellows بود که یک برنامه آزمایشی ۶ ماهه برای حمایت مالی از پژوهش‌های مرتبط با ایمنی هوش مصنوعی است. پژوهشگران می‌خواستند بررسی کنند که چه چیزی باعث ایجاد تغییرات شخصیتی در نحوه عملکرد و گفت‌وگوی یک مدل می‌شود.

دیدگاه‌ها و نظرات خود را بنویسید
مطالب پیشنهادی