ثبت بازخورد

لطفا میزان رضایت خود را از دیجیاتو انتخاب کنید.

Very satisfied Satisfied Neutral Dissatisfied Very dissatisfied
واقعا راضی‌ام
اصلا راضی نیستم
چطور میتوانیم تجربه بهتری برای شما بسازیم؟

نظر شما با موفقیت ثبت شد.

از اینکه ما را در توسعه بهتر و هدفمند‌تر دیجیاتو همراهی می‌کنید
از شما سپاسگزاریم.

جدیدترین اخبار و روندهای دنیای فناوری را با نگاهی دقیق و حرفه‌ای، در کانال تلگرام دیجیاتو دنبال کنید.

ورود به کانال تلگرام دیجیاتو
شیائومی
تکنولوژی

شیائومی از مدل Xiaomi-Robotics-0 برای صنعت رباتیک رونمایی کرد

این مدل متن‌باز بینایی-زبان-کنش برای آموزش ربات‌ها طراحی شده است.

حمید گنجی
نوشته شده توسط حمید گنجی تاریخ انتشار: ۲۳ بهمن ۱۴۰۴ | ۱۰:۰۶

در دیجیاتو ثبت‌نام کنید

جهت بهره‌مندی و دسترسی به امکانات ویژه و بخش‌های مختلف در دیجیاتو عضو ویژه دیجیاتو شوید.

عضویت در دیجیاتو

شیائومی که بیشتر به‌خاطر گوشی‌های هوشمند، تجهیزات خانه هوشمند و اخیراً خودروهای برقی‌اش شناخته می‌شود، حالا می‌خواهد در حوزه پژوهش رباتیک نیز جایگاهی برای خود به دست آورد.

به گزارش گیزمو چاینا، این شرکت از Xiaomi-Robotics-0 رونمایی کرده که یک مدل متن‌باز بینایی-زبان-کنش با ۴.۷ میلیارد پارامتر است. این مدل برای ترکیب درک بصری، فهم زبان و اجرای آنی اقدامات طراحی شده است و که شیائومی آنها را هسته هوش فیزیکی می‌داند. به گفته شیائومی، این مدل هم‌اکنون در شبیه‌سازی‌ها و آزمایش‌های دنیای واقعی چندین رکورد در سطح پیشرفته‌ترین فناوری ثبت کرده است.

مدل Xiaomi-Robotics-0 جایگاه شیائومی را در حوزه رباتیک تقویت خواهد کرد

چنین مدل‌های رباتیکی چرخه بسته ادراک، تصمیم‌گیری و اجرا را حل می‌کنند. یک ربات باید محیط را ببیند، بفهمد از او چه خواسته شده، برای انجام آن برنامه‌ریزی کند و سپس آن را به‌صورت روان اجرا کند. شیائومی می‌گوید Robotics-0 به طور خاص برای ایجاد تعادل میان درک گسترده و کنترل حرکتی ظریف طراحی شده است.

مدل رباتیک شیائومی

برای دستیابی به این هدف، این مدل از معماری‌ای موسوم به Mixture-of-Transformers استفاده می‌کند. در این ساختار، وظایف بین دو بخش اصلی تقسیم می‌شوند.

بخش اول یک مدل بینایی-زبان (VLM) است که نقش مغز را ایفا می‌کند. این بخش آموزش دیده تا دستورهای انسانی، حتی دستورهای مبهمی مانند «لطفاً حوله را تا کن» را تفسیر کند و روابط فضایی را از ورودی‌های تصویری با وضوح‌بالا درک کند. این قسمت مسئول تشخیص اشیا، پاسخ به پرسش‌های بصری و استدلال منطقی است.

بخش دوم چیزی است که شیائومی آن را Action Expert می‌نامد. این بخش بر پایه یک Diffusion Transformer چندلایه ساخته شده است. به‌جای تولید یک عمل در هر لحظه، این مدل چیزی به نام «Action Chunk» تولید می‌کند که می‌توان آن را به‌صورت دنباله‌ای از حرکات در نظر گرفت و با استفاده از تکنیک‌های تطبیق جریان، دقت و نرمی حرکت را حفظ می‌کند.

یکی از مشکلات رایج در مدل‌های بینایی-زبان-کنش این است که وقتی یاد می‌گیرند اعمال فیزیکی انجام دهند، بخشی از توانایی‌های اولیه درک و فهم خود را از دست می‌دهند. شیائومی می‌گوید با آموزش هم‌زمان مدل روی داده‌های چندوجهی و داده‌های مربوط به عمل، از بروز این مشکل جلوگیری کرده است

حمید گنجی
حمید گنجی

دیدگاه‌ها و نظرات خود را بنویسید
مطالب پیشنهادی