رپورتاژ آگهی

اسبربانک مجموعه‌ای از پیشرفته‌ترین شبکه‌های عصبی هوش مصنوعی روسی را منتشر کرد

این مدل‌های پیشرفته، درک بومی از پرامپت‌های روسی دارند.

نوشته شده توسط واحد تبلیغات تاریخ انتشار: ۴ آذر ۱۴۰۴ | ۱۶:۴۵

در دیجیاتو ثبت‌نام کنید

جهت بهره‌مندی و دسترسی به امکانات ویژه و بخش‌های مختلف در دیجیاتو عضو ویژه دیجیاتو شوید.

عضویت در دیجیاتو

سلب مسئولیت: دیجیاتو صرفا نمایش‌دهنده این متن تبلیغاتی است و تحریریه مسئولیتی درباره محتوای آن ندارد.

در طی کنفرانس هوش مصنوعی ۲۰۲۵ روسیه که از ۲۸ تا ۳۰ آبان ۱۴۰۴ در مسکو برگزار شد، اسبربانک روسیه از انتشار معماری و پارامترهای دو مدل پیشرفته‌ی جدید مدل‌های MoE در سری محصولات گیگاچت (GigaChat) خود، با نام‌های «اولترا پریویو» (Ultra Preview) و «لایتنینگ» (Lightning) خبر داد؛ مدل‌هایی که از ابتدا برای انجام وظایف به زبان روسی آموزش داده شده‌اند. همچنین نسل جدید مدل‌های متن‌بازِ تشخیص گفتار با نام گیگا اِی‌اِم نسخه ۳ (GigaAM-v3) که توانایی بالایی در استفاده از علائم نگارشی و بهینه‌سازی متن دارد نیز منتشر شده است.

علاوه بر این، تمامی مدل‌های تولید تصویر و ویدئو از خانواده‌ی جدید کاندینسکی ۵.۰ (Kandinsky 5.0) شامل ویدئو لایت (Video Lite)، ویدئو پرو (Video Pro) و ایمیج لایت (Image Lite) اکنون به‌صورت عمومی در دسترس قرار گرفته‌اند. این مدل‌های پیشرفته، درک بومی از پرامپت‌های روسی دارند، از دانش زمینه‌ای مرتبط با فرهنگ روسیه بهره می‌برند و قادرند متون سیریلیک را با دقت بالا در تصاویر و ویدئوها تولید کنند.

همچنین مدل‌های K-VAE 1.0 برای رمزگذاری و بازسازی محتوای بصری که برای آموزش مدل‌های تولیدکننده تصویر حیاتی بوده و از برترین مدل‌های متن‌باز جهان محسوب می‌شوند، منتشر شده‌اند.
تمامی این مدل‌ها همراه با کد و پارامترها، تحت مجوز MIT ارائه می‌شوند و استفاده‌ی تجاری از آن‌ها آزاد است.

اظهارات مدیر ارشد فناوری و هوش مصنوعی اسبربانک

آندری بلفتسف (Andrey Belevtsev)، معاون ارشد و رئیس بخش فناوری و هوش مصنوعی اسبربانک گفت: «ما باور داریم که ساخت هوش مصنوعی در کلاس جهانی به دو چیز نیاز دارد: «منابع عظیم و تیم‌های تحقیقاتی در سطح جهانی. اسبربانک هر دو را دارد. اما مهم‌تر از همه، روحیه‌ اشتراک‌گذاری است، نه محدودسازی فناوری. استراتژی ما تبدیل شدن به زیربنایی متن‌باز، برای نوآوری در سراسر کشور است؛ به همین دلیل وزن مدل‌ها را منتشر می‌کنیم. این یک لحظه‌ی سرنوشت‌ساز است. هر شرکت روسی، از بانک‌ها تا استارتاپ‌ها، می‌تواند این مدل‌ها را در سیستم‌های داخلی خود نصب کرده، آن‌ها را روی داده‌های محرمانه‌ی خود به‌صورت آفلاین بهینه‌سازی (فاین‌تیون) کند و کنترل کامل داده‌ها را در اختیار داشته باشد.»

او ادامه داد: «این همان مفهوم واقعی «حاکمیت فناوری» است: هوش مصنوعی متعلق به کل کشور است و نیروی محرکه‌ی تحول کسب‌وکار و رشد اقتصادی خواهد بود. همچنین باید اشاره کنم که مدل Ultra به‌زودی برای مشتریان سازمانی با هزینه‌ی بهینه‌تر برای استقرار داخلی عرضه خواهد شد.»

آپدیت دو مدل گیگا چت اولترا و گیگا چت لایتنینگ

سری مدل‌های گیگاچت اکنون با گیگاچت اولترا پریویو (GigaChat Ultra Preview) و گیگاچت لایتنینگ (GigaChat Lightning) گسترش یافته است.
گیگاچت اولترا پریویو بزرگ‌ترین و قدرتمندترین مدل این مجموعه و نخستین مدل در این مقیاس در روسیه است. این مدل که هنوز در حال آموزش است، اکنون نیز از نظر کیفیت پردازش زبان روسی در بنچمارک MERA رتبه اول را کسب کرده و مدل‌هایی مانند دیپ سیک ورژن V3.1 را پشت سر گذاشته است. سرعت آن نیز با وجود اندازه جهشی، همچنان بالاست و سریع‌تر از مدل پرچمدار قبلی یعنی GigaChat 2 Max عمل می‌کند.

انتشار آزاد پارمترهای اولترا پریویو این امکان را به توسعه‌دهندگان می‌دهد که مدل را به‌صورت آفلاین و در محیط‌های کاملاً امن سازمانی روی داده‌های حساس خود شخصی‌سازی کنند.

مدل دیگر، گیگاچت لایتنینگ، نسخه‌ای کوچک‌تر و فوق‌سریع است که برای اجرا روی لپ‌تاپ‌ها و تکرار محصولی سریع به‌صورت محلی بهینه شده است.
از نظر کیفیت، لایتنینگ در میان مدل‌های متن‌باز جهانی رقابتی ظاهر شده و در وظایف زبان روسی بهتر از Qwen3-4B عمل می‌کند و در قابلیت مکالمه، تحلیل اسناد و کاربردهای تجاری نیز در سطح آن قرار می‌گیرد.

اسبربانک علاوه بر پارامترها، تکنیک‌های تسریع استنتاج را نیز منتشر کرده است. لایتنینگ با وجود ابعادی بزرگ‌تر، تقریباً با سرعت Qwen3-1.7B اجرا می‌شود.

هر دو مدل به‌طور کامل به ابزارهای خارجی متصل می‌شوند و دو قابلیت کلیدی را برجسته می‌کنند:

کد: ابزاری برای اجرای کد، تحلیل و نمایش محاسبات، ترسیم نمودار، تست فرضیه‌ها و پردازش برنامه‌نویسی در زمان واقعی.
حافظه: سیستمی برای تعامل شخصی‌سازی‌شده که اهداف، ترجیحات و سابقه‌ی گفتگو را نگه می‌دارد. داده‌های قدیمی یا حساس حذف می‌شوند و کاربر می‌تواند این «حافظه» را ویرایش کند.

به‌روزرسانی‌هایی از مدل گیگا ای‌ام نسخه ۳

گیگا ای‌ام وی۳ شامل پنج مدل متن‌باز جدید تشخیص گفتار برای کاربردهای صنعتی و تجاری است؛ از جمله دستیارهای صوتی، مراکز تماس، تحلیل مکالمات، تجمیع پیام‌های صوتی و عامل‌های چندوجهی (Multimodal agents).

در نسخه جدید، حجم پیش‌آموزش از ۵۰ هزار ساعت به ۷۰۰ هزار ساعت صوت افزایش یافته است. افزوده شدن پشتیبانی از علائم نگارشی و نرمال‌سازی متون باعث شده که این مدل در شرایط برابر، با مدل ویسپر (Whisper) از اپن‌ای‌آی رقابت کند و در عین حال از نظر کیفیت تشخیص صورت، بسیار بهتر عمل کند.

بر اساس مدل بنیادی منحصر به فرد GigaAM-v3، هر فناوری مبتنی بر گفتار می‌تواند پیاده‌سازی شود. در شرکت اسبر این مدل زیرساختی برای طیف وسیعی از فناوری‌های صوتی از جمله تشخیص گفتار، سنتز گفتار یا تبدیل متن به گفتار استفاده می‌شود و گیگاچت را قادر به پردازش صوت و تصویر می‌کند.

آپدیت‌های مدل کاندینسکی ۵.۰

خانواده کاندینسکی ۵.۰ مجموعه‌ای پیشرفته از مدل‌های تولید تصویر و ویدئو است:

ایمیج لایت برای تولید تصاویر باکیفیت و ویرایش تصویر
ویدئو لایت و ویدئو پرو برای تولید ویدئو از متن یا انیمیشن‌سازی تصاویر

مدل ایمیج لایت تصاویر HD با جزئیات بالا می‌سازد، درک عمیقی از فضای فرهنگی روسیه دارد و از پرامپت‌های روسی و انگلیسی پشتیبانی می‌کند. این مدل همچنین قادر به تولید متن لاتین و سیریلیک در تصویر است.
مدل ویدئو پرو، ویدئوهای ۱۰ ثانیه‌ای HD با نرخ ۲۴ فریم تولید کرده و بر اساس ارزیابی‌ها از مدل‌هایی مانند Wan-2.2-A14B پیشی گرفته و به کیفیت مدل اختصاصی Veo 3 نزدیک شده است.

برای اجرای سبک‌تر، نسخه‌ی ویدئو لایت برای کارت‌های گرافیک مصرفی با حداقل ۱۲ گیگابایت VRAM منتشر شده است.

آموزش خانواده کاندینسکی ۵.۰ با استفاده از یک میلیارد تصویر و ۳۰۰ میلیون ویدئو انجام شده و مجموعه‌ای از روش‌های نوآورانه برای پردازش این داده‌های عظیم توسعه یافته است. مرحله نهایی آموزش نیز با دیتاستی دقیق که توسط طراحان و هنرمندان حرفه‌ای تهیه شده، کیفیت ترکیب‌بندی و سبک خروجی را تضمین کرده است.

این مدل‌ها ابزارهای جدیدی برای تولید محتوای شخصی‌سازی‌شده، انیمیشن، داستان‌پردازی بصری، تبلیغات و پروژه‌های تجاری در اختیار توسعه‌دهندگان، کسب‌وکارها و متخصصان خلاق قرار می‌دهند. انتشار Kandinsky 5.0 گامی مهم در توسعه‌ی اکوسیستم متن‌باز مولد روسیه است.

رونمایی از مدل K-VAE 1.0 برای تولید تصاویر و ویدئو

مدل‌های مولد (Generative models) مانند «کاندینسکی ۵.۰» محتوای رسانه‌ای را در فضاهای نهفته (latent spaces) ایجاد می‌کنند - فضاهایی که برای چشم انسان نامرئی هستند. کار در این بازنمایی‌های پنهان، امکان آموزش و استقرار سریع‌تر، سبک‌تر و بسیار مقیاس‌پذیرتر مدل‌ها را فراهم می‌کند.

اسبر اکنون مدل‌های رمزگذار خودکار (autoencoder) اختصاصی خود را که از پایه آموزش دیده‌اند، با نام‌های K-VAE 1.0 برای تصاویر (دوبعدی) و ویدیوها (سه‌بعدی) معرفی می‌کند. این مدل‌ها داده‌های بصری را به بازنمایی‌های نهفته تبدیل می‌کنند و سپس آن‌ها را با وفاداری فوق‌العاده‌ای بازسازی (reconstruct) می‌کنند. مدل‌های K-VAE 1.0 بهترین در نوع خود در میان معادل‌های متن‌باز (open-source) جهانی هستند. در دسترس قرار گرفتن عمومی آن‌ها، فناوری‌های هوش مصنوعی مولد را به سطح جدیدی از کیفیت ارتقا خواهد داد.

گفتنی است کنفرانس هوش مصنوعی روسیه با نام «سفر هوش مصنوعی» یا AI Journey، از ۱۹ تا۲۱ نوامبر امسال مصادف با ۲۸ تا۳۰ آذرماه در مسکو روسیه برگزار شد.

تبلیغات

اشتراک گذاری:

کپی لینک