ثبت بازخورد

لطفا میزان رضایت خود را از دیجیاتو انتخاب کنید.

واقعا راضی‌ام
اصلا راضی نیستم
چطور میتوانیم تجربه بهتری برای شما بسازیم؟

نظر شما با موفقیت ثبت شد.

از اینکه ما را در توسعه بهتر و هدفمند‌تر دیجیاتو همراهی می‌کنید
از شما سپاسگزاریم.

رویکرد جدید دیپ‌ سیک برای بهبود هوش مصنوعی
هوش مصنوعی

دیپ‌سیک برای نسل بعدی هوش مصنوعی آماده می‌شود: مدل‌های خودبهبوددهنده

دیپ‌‌سیک به رقابت جدی با بزرگ‌ترین بازیگران حوزه هوش مصنوعی ادامه می‌دهد.

مهدی فروغی
نوشته شده توسط مهدی فروغی | ۱۹ فروردین ۱۴۰۴ | ۱۷:۰۰

دیپ‌‌سیک با مدل‌های خودبهبوددهنده (Self-improving) آماده‌ تحولی جدید در حوزه هوش مصنوعی می‌شود. چند ماه پیش، وقتی دیپ‌‌سیک قدم به عرصه هوش مصنوعی گذاشت، شرط‌‌‌بندی بزرگ وال استریت روی شرکت‌های سازنده هوش مصنوعی مولد با چالشی جدی روبه‌رو شد. حالا شاید موجی تازه در راه باشد.

براساس گزارش بلومبرگ، مدل متن‌باز دیپ‌سیک باوجود محدودیت‌های فراوانی که داشت، نشان داد مدل هوش مصنوعی پیشرفته برای استدلال نیازی به میلیاردها دلار هزینه ندارد و با منابع نسبتاً محدود هم می‌توان آن را اجرا کرد.

دیپ‌‌سیک به‌سرعت میان شرکت‌های بزرگ مانند هواوی، اوپو و ویوو به‌ کار گرفته شد و شرکت‌هایی چون مایکروسافت، علی‌بابا و تنسنت نیز بلافاصله این مدل را در پلتفرم‌های خود پیاده‌ کردند. هدف بعدی این شرکت چینی مدل‌های هوش مصنوعی خودبهبوددهنده است که از رویکرد قضاوت-پاداش برای بهبود عملکرد خود استفاده می‌کنند.

رویکرد جدید دیپ‌‌سیک برای بهبود هوش مصنوعی

رویکرد جدید دیپ‌ سیک برای بهبود هوش مصنوعی

در مقاله‌ای که به‌تازگی منتشر شده، محققان دیپ‌ سیک و دانشگاه چینهوا چین رویکردی جدید معرفی کرده‌اند که می‌تواند هوش مصنوعی را هوشمندتر و کارآمدتر بهبود بخشد. این فناوری به نام تنظیم نقادانه خوداصول‌مند (SPCT) شناخته می‌شود و از لحاظ فنی به نام مدل‌سازی پاداش مولد (GRM) معروف است.

به زبان ساده، این روش به‌نوعی شبیه ایجاد حلقه بازخورد لحظه‌ای است؛ به‌عبارت‌دیگر، مدل هوش مصنوعی با افزایش اندازه هنگام آموزش مدام بهبود می‌یابد که البته این کار نیازمند منابع زیاد است.

دیپ‌سیک سیستمی معرفی کرده که در آن «داوری» داخلی، با استفاده از مجموعه‌ای از نقدها و اصول مشخص، به مدل هوش مصنوعی کمک می‌کند پاسخ‌های دقیق‌تری به پرسش‌های کاربران بدهد. این نقدها سپس با قوانین ثابت مدل مقایسه می‌شوند و درصورت وجود تطابق بالا، سیگنال پاداش صادر می‌شود که در مراحل بعدی مدل را به‌سوی عملکرد بهینه‌تر هدایت می‌کند.

این مدل‌ها که به نام «DeepSeek-GRM» شناخته می‌شوند، به گفته محققان، عملکرد بهتری نسبت به مدل‌هایی مانند جمینای گوگل، لاما متا و GPT-4o دارند. دیپ‌‌سیک اعلام کرده این مدل‌های نسل جدید از طریق کانال‌های متن‌باز در دسترس قرار خواهند گرفت.

هوش مصنوعی که بتواند خود را خودکار بهبود ببخشد، نگرانی‌هایی به وجود می‌آورد؛ «اریک اشمیت»، مدیرعامل پیشین گوگل، گفته بود ممکن است برای چنین سیستم‌هایی نیاز به دکمه توقف وجود داشته باشد. اگرچه این ایده جدید نیست و پژوهشگرانی مانند «ایلیزر یودکوفسکی» و «ایروینگ جان گود» سال‌ها پیش آن را مطرح کرده‌اند، همچنان چالش‌ها و سؤالات زیادی در این زمینه وجود دارد.

دیدگاه‌ها و نظرات خود را بنویسید
مطالب پیشنهادی