اسبربانک مجموعهای از پیشرفتهترین شبکههای عصبی هوش مصنوعی روسی را منتشر کرد
این مدلهای پیشرفته، درک بومی از پرامپتهای روسی دارند.
سلب مسئولیت: دیجیاتو صرفا نمایشدهنده این متن تبلیغاتی است و تحریریه مسئولیتی درباره محتوای آن ندارد.
در طی کنفرانس هوش مصنوعی ۲۰۲۵ روسیه که از ۲۸ تا ۳۰ آبان ۱۴۰۴ در مسکو برگزار شد، اسبربانک روسیه از انتشار معماری و پارامترهای دو مدل پیشرفتهی جدید مدلهای MoE در سری محصولات گیگاچت (GigaChat) خود، با نامهای «اولترا پریویو» (Ultra Preview) و «لایتنینگ» (Lightning) خبر داد؛ مدلهایی که از ابتدا برای انجام وظایف به زبان روسی آموزش داده شدهاند. همچنین نسل جدید مدلهای متنبازِ تشخیص گفتار با نام گیگا اِیاِم نسخه ۳ (GigaAM-v3) که توانایی بالایی در استفاده از علائم نگارشی و بهینهسازی متن دارد نیز منتشر شده است.
علاوه بر این، تمامی مدلهای تولید تصویر و ویدئو از خانوادهی جدید کاندینسکی ۵.۰ (Kandinsky 5.0) شامل ویدئو لایت (Video Lite)، ویدئو پرو (Video Pro) و ایمیج لایت (Image Lite) اکنون بهصورت عمومی در دسترس قرار گرفتهاند. این مدلهای پیشرفته، درک بومی از پرامپتهای روسی دارند، از دانش زمینهای مرتبط با فرهنگ روسیه بهره میبرند و قادرند متون سیریلیک را با دقت بالا در تصاویر و ویدئوها تولید کنند.
همچنین مدلهای K-VAE 1.0 برای رمزگذاری و بازسازی محتوای بصری که برای آموزش مدلهای تولیدکننده تصویر حیاتی بوده و از برترین مدلهای متنباز جهان محسوب میشوند، منتشر شدهاند.
تمامی این مدلها همراه با کد و پارامترها، تحت مجوز MIT ارائه میشوند و استفادهی تجاری از آنها آزاد است.

اظهارات مدیر ارشد فناوری و هوش مصنوعی اسبربانک
آندری بلفتسف (Andrey Belevtsev)، معاون ارشد و رئیس بخش فناوری و هوش مصنوعی اسبربانک گفت: «ما باور داریم که ساخت هوش مصنوعی در کلاس جهانی به دو چیز نیاز دارد: «منابع عظیم و تیمهای تحقیقاتی در سطح جهانی. اسبربانک هر دو را دارد. اما مهمتر از همه، روحیه اشتراکگذاری است، نه محدودسازی فناوری. استراتژی ما تبدیل شدن به زیربنایی متنباز، برای نوآوری در سراسر کشور است؛ به همین دلیل وزن مدلها را منتشر میکنیم. این یک لحظهی سرنوشتساز است. هر شرکت روسی، از بانکها تا استارتاپها، میتواند این مدلها را در سیستمهای داخلی خود نصب کرده، آنها را روی دادههای محرمانهی خود بهصورت آفلاین بهینهسازی (فاینتیون) کند و کنترل کامل دادهها را در اختیار داشته باشد.»
او ادامه داد: «این همان مفهوم واقعی «حاکمیت فناوری» است: هوش مصنوعی متعلق به کل کشور است و نیروی محرکهی تحول کسبوکار و رشد اقتصادی خواهد بود. همچنین باید اشاره کنم که مدل Ultra بهزودی برای مشتریان سازمانی با هزینهی بهینهتر برای استقرار داخلی عرضه خواهد شد.»

آپدیت دو مدل گیگا چت اولترا و گیگا چت لایتنینگ
سری مدلهای گیگاچت اکنون با گیگاچت اولترا پریویو (GigaChat Ultra Preview) و گیگاچت لایتنینگ (GigaChat Lightning) گسترش یافته است.
گیگاچت اولترا پریویو بزرگترین و قدرتمندترین مدل این مجموعه و نخستین مدل در این مقیاس در روسیه است. این مدل که هنوز در حال آموزش است، اکنون نیز از نظر کیفیت پردازش زبان روسی در بنچمارک MERA رتبه اول را کسب کرده و مدلهایی مانند دیپ سیک ورژن V3.1 را پشت سر گذاشته است. سرعت آن نیز با وجود اندازه جهشی، همچنان بالاست و سریعتر از مدل پرچمدار قبلی یعنی GigaChat 2 Max عمل میکند.
انتشار آزاد پارمترهای اولترا پریویو این امکان را به توسعهدهندگان میدهد که مدل را بهصورت آفلاین و در محیطهای کاملاً امن سازمانی روی دادههای حساس خود شخصیسازی کنند.
مدل دیگر، گیگاچت لایتنینگ، نسخهای کوچکتر و فوقسریع است که برای اجرا روی لپتاپها و تکرار محصولی سریع بهصورت محلی بهینه شده است.
از نظر کیفیت، لایتنینگ در میان مدلهای متنباز جهانی رقابتی ظاهر شده و در وظایف زبان روسی بهتر از Qwen3-4B عمل میکند و در قابلیت مکالمه، تحلیل اسناد و کاربردهای تجاری نیز در سطح آن قرار میگیرد.
اسبربانک علاوه بر پارامترها، تکنیکهای تسریع استنتاج را نیز منتشر کرده است. لایتنینگ با وجود ابعادی بزرگتر، تقریباً با سرعت Qwen3-1.7B اجرا میشود.
هر دو مدل بهطور کامل به ابزارهای خارجی متصل میشوند و دو قابلیت کلیدی را برجسته میکنند:
- کد: ابزاری برای اجرای کد، تحلیل و نمایش محاسبات، ترسیم نمودار، تست فرضیهها و پردازش برنامهنویسی در زمان واقعی.
- حافظه: سیستمی برای تعامل شخصیسازیشده که اهداف، ترجیحات و سابقهی گفتگو را نگه میدارد. دادههای قدیمی یا حساس حذف میشوند و کاربر میتواند این «حافظه» را ویرایش کند.
بهروزرسانیهایی از مدل گیگا ایام نسخه ۳
گیگا ایام وی۳ شامل پنج مدل متنباز جدید تشخیص گفتار برای کاربردهای صنعتی و تجاری است؛ از جمله دستیارهای صوتی، مراکز تماس، تحلیل مکالمات، تجمیع پیامهای صوتی و عاملهای چندوجهی (Multimodal agents).
در نسخه جدید، حجم پیشآموزش از ۵۰ هزار ساعت به ۷۰۰ هزار ساعت صوت افزایش یافته است. افزوده شدن پشتیبانی از علائم نگارشی و نرمالسازی متون باعث شده که این مدل در شرایط برابر، با مدل ویسپر (Whisper) از اپنایآی رقابت کند و در عین حال از نظر کیفیت تشخیص صورت، بسیار بهتر عمل کند.
بر اساس مدل بنیادی منحصر به فرد GigaAM-v3، هر فناوری مبتنی بر گفتار میتواند پیادهسازی شود. در شرکت اسبر این مدل زیرساختی برای طیف وسیعی از فناوریهای صوتی از جمله تشخیص گفتار، سنتز گفتار یا تبدیل متن به گفتار استفاده میشود و گیگاچت را قادر به پردازش صوت و تصویر میکند.
آپدیتهای مدل کاندینسکی ۵.۰
خانواده کاندینسکی ۵.۰ مجموعهای پیشرفته از مدلهای تولید تصویر و ویدئو است:
- ایمیج لایت برای تولید تصاویر باکیفیت و ویرایش تصویر
- ویدئو لایت و ویدئو پرو برای تولید ویدئو از متن یا انیمیشنسازی تصاویر
مدل ایمیج لایت تصاویر HD با جزئیات بالا میسازد، درک عمیقی از فضای فرهنگی روسیه دارد و از پرامپتهای روسی و انگلیسی پشتیبانی میکند. این مدل همچنین قادر به تولید متن لاتین و سیریلیک در تصویر است.
مدل ویدئو پرو، ویدئوهای ۱۰ ثانیهای HD با نرخ ۲۴ فریم تولید کرده و بر اساس ارزیابیها از مدلهایی مانند Wan-2.2-A14B پیشی گرفته و به کیفیت مدل اختصاصی Veo 3 نزدیک شده است.
برای اجرای سبکتر، نسخهی ویدئو لایت برای کارتهای گرافیک مصرفی با حداقل ۱۲ گیگابایت VRAM منتشر شده است.
آموزش خانواده کاندینسکی ۵.۰ با استفاده از یک میلیارد تصویر و ۳۰۰ میلیون ویدئو انجام شده و مجموعهای از روشهای نوآورانه برای پردازش این دادههای عظیم توسعه یافته است. مرحله نهایی آموزش نیز با دیتاستی دقیق که توسط طراحان و هنرمندان حرفهای تهیه شده، کیفیت ترکیببندی و سبک خروجی را تضمین کرده است.
این مدلها ابزارهای جدیدی برای تولید محتوای شخصیسازیشده، انیمیشن، داستانپردازی بصری، تبلیغات و پروژههای تجاری در اختیار توسعهدهندگان، کسبوکارها و متخصصان خلاق قرار میدهند. انتشار Kandinsky 5.0 گامی مهم در توسعهی اکوسیستم متنباز مولد روسیه است.
رونمایی از مدل K-VAE 1.0 برای تولید تصاویر و ویدئو
مدلهای مولد (Generative models) مانند «کاندینسکی ۵.۰» محتوای رسانهای را در فضاهای نهفته (latent spaces) ایجاد میکنند - فضاهایی که برای چشم انسان نامرئی هستند. کار در این بازنماییهای پنهان، امکان آموزش و استقرار سریعتر، سبکتر و بسیار مقیاسپذیرتر مدلها را فراهم میکند.
اسبر اکنون مدلهای رمزگذار خودکار (autoencoder) اختصاصی خود را که از پایه آموزش دیدهاند، با نامهای K-VAE 1.0 برای تصاویر (دوبعدی) و ویدیوها (سهبعدی) معرفی میکند. این مدلها دادههای بصری را به بازنماییهای نهفته تبدیل میکنند و سپس آنها را با وفاداری فوقالعادهای بازسازی (reconstruct) میکنند. مدلهای K-VAE 1.0 بهترین در نوع خود در میان معادلهای متنباز (open-source) جهانی هستند. در دسترس قرار گرفتن عمومی آنها، فناوریهای هوش مصنوعی مولد را به سطح جدیدی از کیفیت ارتقا خواهد داد.
گفتنی است کنفرانس هوش مصنوعی روسیه با نام «سفر هوش مصنوعی» یا AI Journey، از ۱۹ تا۲۱ نوامبر امسال مصادف با ۲۸ تا۳۰ آذرماه در مسکو روسیه برگزار شد.
برای گفتگو با کاربران ثبت نام کنید یا وارد حساب کاربری خود شوید.