هوش مصنوعی

مدل هوش مصنوعی جدید دیپ‌سیک منتشر شد؛ ارتقایافته و سریع‌تر از رقبا

مدل جدید دیپ‌سیگ V3-0324 اکنون متن‌باز در Hugging Face منتشر شده است.

آزاد کبیری منتشر شده در 6 فروردین 1404 | 11:30

در دیجیاتو ثبت‌نام کنید

جهت بهره‌مندی و دسترسی به امکانات ویژه و بخش‌های مختلف در دیجیاتو عضو ویژه دیجیاتو شوید.

عضویت در دیجیاتو

تازه‌های تکنولوژی

استارتاپ چینی DeepSeek بی‌سروصدا مدل هوش مصنوعی ارتقایافته‌ای به نام V3-0324 را منتشر کرده است. این مدل در بخش‌های مختلف مانند کدنویسی بهبود یافته است. درکل دیپ‌سیک ادعا می‌کند مدل هوش مصنوعی آن می‌تواند با مدل‌های آمریکایی OpenAI و Anthropic رقابت کند یا آنها را شکست دهد.

براساس گزارش TechRadar، دیپ‌سیک به‌تازگی ارتقای قابل‌توجهی برای مدل اصلی خود منتشر کرد. مدل جدید V3-0324 با حجم 641 گیگابایت اکنون متن‌باز با مجوز MIT در Hugging Face منتشر شده است. نکته عجیب اینکه برخلاف شرکت‌های آمریکایی که تبلیغات زیادی برای مدل‌های جدید خود می‌کنند، مدل جدید چینی‌ها تقریباً بدون هیچ اطلاعیه خاصی منتشر شده است.

مدل هوش مصنوعی جدید دیپ‌سیک

محقق هوش مصنوعی مدل جدید دیپ‌سیک را روی مک استودیو با تراشه M3 Ultra اجرا کرده و نشان داده این مدل با سرعت بیش از 20 توکن در ثانیه عمل می‌کند. البته نباید از قدرت شگفت‌انگیز مک استودیوی 9 هزار و 500 دلاری غافل شد و شاید برای سنجش سرعت این هوش مصنوعی چنین سیستم قدرتمندی معیار عمومی خوبی نباشد.

بنچمارک‌های مدل جدید دیپ‌سیک — مقایسه بنچمارک‌های مدل **V3-0324** دیپ‌سیک با مدل‌های جدید OpenAI، آنتروپیک و Alibaba

با‌توجه‌به تست‌های این شرکت، نسخه جدید DeepSeek از مدل V3 ارتقای قابل توجهی در توانایی‌های مختلف مانند کدنویسی یافته است. شاید چنین ارتقاهایی به‌خودی‌خود انقلابی نباشند اما سرعت پیشرفت DeepSeek قابل‌توجه است.

دیپ‌سیک که سال گذشته میلادی به شهرت رسید، پس از انتشار نسخه اصلی V3 در دسامبر، به‌سرعت درحال پیشروی است. یک ماه بعد از انتشار نسخه اصلی، مدل استدلال‌گر R1 از راه رسید و اکنون V3-0324 منتشر شده است. حتی اگر مدل‌های دیپ‌سیک در برخی بنچمارک‌ها نتوانند با مدل‌های OpenAI و آنتروپیک رقابت کنند، از لحاظ قیمتی بسیار به‌صرفه‌اند.

READ محققان: مدل‌های هوش مصنوعی هنگام شکست در بازی‌ها دست به تقلب می‌زنند

DeepSeek-V3-0324 از معماری «ترکیب متخصصان» (MoE) بهره می‌برد که اساساً با نحوه عملکرد مدل‌های زبانی بزرگ معمولی فرق دارد. مدل‌های معمولی کل تعداد پارامترهای خود را برای یک کار فعال می‌کنند اما در رویکرد DeepSeek فقط حدود 37 میلیارد از 685 میلیارد پارامتر حین انجام وظایف خاص فعال می‌شوند.