چالش دیگری برای OpenAI؛ محققان با کمتر از 50 دلار مدل هوش مصنوعی استدلال‌گر رایگان ساخته‌اند

این مدل از طریق فرایندی با نام «تقطیر» ساخته شده است که برای استخراج قابلیت‌های «استدلال» از یک مدل هوش مصنوعی دیگر کاربرد دارد.

نوشته شده توسط جواد تاجی تاریخ انتشار: ۱۸ بهمن ۱۴۰۳ | ۱۰:۰۰

در دیجیاتو ثبت‌نام کنید

جهت بهره‌مندی و دسترسی به امکانات ویژه و بخش‌های مختلف در دیجیاتو عضو ویژه دیجیاتو شوید.

عضویت در دیجیاتو

ویدئوی مرتبط

ویدیو دیجی‌تک؛ هوش مصنوعی به زبان ساده

طی هفته‌های گذشته هوش مصنوعی چینی DeepSeek که با هزینه‌ای بسیار کمتر از مدل‌های آمریکایی ساخته شده باعث سقوط سهام شرکت‌های فناوری و بازارهای جهان شده بود. حالا محققان دانشگاه‌های استنفورد و واشنگتن در مقاله جدیدی ادعا کرده‌اند که با کمتر از 50 دلار موفق به ساخت یک مدل هوش مصنوعی استدلال‌گر رایگان مانند o1 از OpenAI شده‌اند.

طبق گزارش‌های منتشر شده، این مدل که s1 نام دارد در تست‌هایی که توانایی آن در ریاضی و کدنویسی را اندازه‌گیری می‌کنند، مشابه مدل‌های استدلال‌گر پیشرفته مانند o1 و DeepSeek R1 عمل کرده است. هم‌اکنون مدل s1 به همراه داده‌ها و کد مورد استفاده برای آموزش آن در GitHub موجود است.

ساخت مدل هوش مصنوعی رایگان s1

محققان در مقاله خود می‌گویند که ابتدا یک مدل پایه را توسعه داده‌اند و سپس از طریق فرایندی با نام «تقطیر» که برای استخراج قابلیت‌های «استدلال» از یک مدل هوش مصنوعی دیگر کاربرد دارد، آن را تنظیم کرده‌اند. به گفته آنها، برای این فرایند از مدل جمینای 2.0 Flash Thinking Experimental گوگل کمک گرفته شده است.

به گفته محققان، آموزش s1 با 16 پردازنده گرافیکی انویدیا H100 کمتر از 30 دقیقه طول کشیده است و این مدل در برخی از بنچمارک‌های هوش مصنوعی به عملکرد بسیار خوبی دست یافته است.

تیم تحقیقاتی سازنده s1 در توسعه مدل خود به دنبال ساده‌ترین رویکرد برای دستیابی به عملکرد قدرتمند در استدلال و «مقیاس‌بندی زمان آزمون» بوده‌اند که مورد دوم به مدل هوش مصنوعی اجازه می‌دهد تا قبل از ارائه پاسخ بیشتر فکر کند. البته OpenAI نیز در مدل o1 خود به چنین پیشرفت‌هایی دست یافته بود و سپس DeepSeek و دیگر آزمایشگاه‌های هوش مصنوعی نیز سعی کرده‌اند تا آنها را از طریق تکنیک‌های مختلف مورد استفاده قرار دهند.

مقاله s1 نشان می‌دهد که مدل‌های استدلال‌گرا را می‌توان از طریق فرایندی به نام «تنظیم دقیق نظارت‌شده» (SFT) با یک مجموعه داده نسبتاً کوچک تقطیر کرد. در این فرایند به مدل هوش مصنوعی دستور داده می‌شود که رفتارهای خاصی را در یک مجموعه داده شبیه‌سازی کند. گفته می‌شود که فرایند SFT نسبت به روش یادگیری تقویتی که DeepSeek برای آموزش مدل R1 براساس o1 انجام داده، ارزان‌تر است.

اشتراک گذاری:

کپی لینک

جواد تاجی

دوران حرفه‌ای من در دنیای فناوری تقریبا به ۱۰ سال قبل برمی‌گرده؛ مسیری که با سخت‌افزار شروع شد، با نرم‌افزار ادامه پیدا کرد و حالا با خبرنگاری حوزه فناوری توی دیجیاتو داره ادامه پیدا می‌کنه. من جوادم و بیشتر از سه دهه از عمرم می‌گذره و علاوه بر دنیای فناوری عاشق فیلم‌و‌سینما، موسیقی کلاسیک‌راک و رئال مادریدم.

مشاهده کلیه مقالات منتشر شده