ثبت بازخورد

لطفا میزان رضایت خود را از دیجیاتو انتخاب کنید.

واقعا راضی‌ام
اصلا راضی نیستم
چطور میتوانیم تجربه بهتری برای شما بسازیم؟

نظر شما با موفقیت ثبت شد.

از اینکه ما را در توسعه بهتر و هدفمند‌تر دیجیاتو همراهی می‌کنید
از شما سپاسگزاریم.

ChatGPT
هوش مصنوعی

دانشمندان استنفورد: دقت ChatGPT در پاسخ به یک مسئله ساده ریاضی از 98 درصد به 2 درصد رسیده است

در این مطالعه، عملکرد ChatGPT در حل مسائل ریاضی، پاسخ دادن به سؤالات حساس، تولید کد نرم‌افزاری و استدلال بصری بررسی شده است.

جواد تاجی
نوشته شده توسط جواد تاجی | ۲۹ تیر ۱۴۰۲ | ۲۲:۰۰

محققان «دانشگاه استنفورد» با انجام یک مطالعه جدید متوجه شده‌اند که نسخه ماه ژوئن چت‌بات هوش مصنوعی پرمخاطب ChatGPT در مقایسه با نسخه ماه مارس عملکرد ضعیف‌تری در برخی وظایف داشته است.

دانشمندان در مطالعه خود عملکرد چت‌بات ساخته شده توسط OpenAI را طی چند ماه در چهار کار «متنوع» حل مسائل ریاضی، پاسخ دادن به سؤالات حساس، تولید کد نرم‌افزاری و استدلال بصری مقایسه کرده‌اند. همچنین در این مطالعه، دو نسخه از فناوری هوش مصنوعی OpenAI یعنی GPT-3.5 و GPT-4 در طول دوره‌های زمانی مختلف بررسی شده‌‌اند.

اختلاف دقت نسخه‌های مختلف ChatGPT

قابل‌توجه‌ترین نتیجه عنوان شده توسط آن‌ها احتمالاً به قابلیت مدل GPT-4 در حل مسائل ریاضی مربوط می‌شود که در 97.6 درصد از سؤال‌های ماه مارس به درستی تشخیص داده 17077 یک عدد اول است. اما تنها سه ماه بعد، دقت آن به 2.4 درصد کاهش پیدا کرده است!

در مقابل، GPT-3.5 عملاً مسیر معکوسی داشته است. هرچند نسخه مارس آن فقط در 7.4 درصد مواقع این سؤالات را به‌درستی پاسخ داده، اما در ماه ژوئن موفق شده تا میزان دقیق بودن پاسخ‌های خود را تا 86.8 درصد افزایش دهد.

زمانی که محققان از مدل‌ها خواستند تا کد بنویسند یا یک آزمایش استدلال بصری (پیش‌بینی شکل بعدی یک الگو) انجام دهند نیز نتایج مشابهی وجود داشته است.

نتیجه بسیار متفاوتی که در ماه مارس تا ژوئن از مدل هوش مصنوعی OpenAI مشاهده شده است، تأثیرات غیرقابل‌پیش‌بینی تغییرات یک بخش از مدل را نشان می‌دهد. «جیمز زو»، استاد علوم کامپیوتر استنفورد که همچنین یکی از نویسندگان این مطالعه است، در این رابطه توضیح می‌دهد:

«هنگامی که ما قصد داریم عملکرد یک مدل زبان بزرگ را در برخی کارهای خاص بهبود بدهیم، می‌تواند عواقب ناخواسته زیادی وجود داشته باشد که ممکن است در واقع عملکرد آن در کارهای دیگر را تضعیف کند. انواع مختلفی از وابستگی متقابل در نحوه پاسخگویی مدل به سؤالات وجود دارد که می‌تواند منجر به رفتارهای بدتری شود که تاکنون مشاهده کرده‌ایم.»

جواد تاجی

دوران حرفه‌ای من توی دنیای فناوری تقریبا به ۱۰ سال قبل برمی‌گرده؛ مسیری که با سخت‌افزار شروع شد، با نرم‌افزار ادامه پیدا کرد و حالا با خبرنگاری حوزه فناوری توی دیجیاتو داره ادامه پیدا می‌کنه. من جوادم و نزدیک به سه دهه از عمرم می‌گذره و علاوه بر دنیای فناوری عاشق فیلم‌و‌سینما، موسیقی کلاسیک‌راک و رئال مادریدم.

دیدگاه‌ها و نظرات خود را بنویسید
مطالب پیشنهادی