هوش مصنوعی

مدل هوش مصنوعی جدید اپل می‌تواند تصاویر را به صحنه‌های سه‌بعدی تبدیل کند

کد منبع این مدل هم‌اکنون در گیت‌هاب در دسترس است.

نوشته شده توسط حمید گنجی تاریخ انتشار: ۲۹ اردیبهشت ۱۴۰۴ | ۱۸:۴۵

در دیجیاتو ثبت‌نام کنید

جهت بهره‌مندی و دسترسی به امکانات ویژه و بخش‌های مختلف در دیجیاتو عضو ویژه دیجیاتو شوید.

عضویت در دیجیاتو

ویدئوی مرتبط

ویدیو جعبه گشایی و نگاه نزدیک دیجیاتو: آیفون SE [تماشا کنید]

اپل از مدل هوش مصنوعی جدیدی به نام Matrix3D رونمایی کرده که به کاربران اجازه می‌دهد تصاویر خود را به صحنه‌های سه‌بعدی تبدیل کنند.

به گزارش 9to5mac، این مدل هوش مصنوعی نتیجه همکاری تیم یادگیری ماشینی اپل با محققان دانشگاه نانجینگ و دانشگاه علوم و فناوری هنگ‌کنگ است. مدل Matrix3D که به مدل فتوگرامتری بزرگ معروف نیز است، می‌تواند فقط با چند عکس دوبعدی اشیا و صحنه‌های سه‌بعدی را بازسازی کند اما با مدل‌های فعلی تفاوت نسبتاً زیادی دارد.

مدل هوش مصنوعی Matrix3D اپل توانایی چشمگیری در خلق صحنه‌های سه‌بعدی دارد

ابتدا باید تعریف و کاربرد فتوگرامتری را بدانید. این فناوری از عکس‌ها برای اندازه‌گیری استفاده می‌کند تا مدل‌های سه‌بعدی یا نقشه‌ها را ایجاد کند. درحال‌حاضر، این فرایند شامل استفاده از مدل‌های جداگانه برای مراحلی مانند تخمین موقعیت دوربین (pose estimation) و پیش‌بینی عمق (depth prediction) است. البته این روش خطای زیادی نیز می‌تواند داشته باشد.

اینجاست که کاربرد Matrix3D مشخص می‌شود. این مدل همه مراحل را یکپارچه انجام می‌دهد و ورودی‌هایی مانند تصاویر، پارامترهای دوربین (مثل زاویه و فاصله کانونی) و داده‌های عمق را می‌گیرد سپس با استفاده از معماری واحد آنها را پردازش می‌کند. این رویکرد نه‌فقط جریان کاری را ساده‌تر می‌کند، بلکه دقت نهایی را نیز افزایش می‌دهد.

آموزش Matrix3D نیز در نوع خود بسیار جالب است. محققان برای آموزش این مدل از استراتژی Masked learning استفاده کرده‌اند. این روش شباهت زیادی به سیستم‌های اولیه مبتنی‌بر Transformer دارد که پایه‌گذار نسخه‌های اولیه ChatGPT بوده است.

در این روش، بخش‌هایی از داده‌های ورودی تصادفی در فرایند آموزش از دسترس مدل پنهان می‌شوند. این کار باعث می‌شود Matrix3D مجبور شود نحوه تکمیل بخش‌های ناقص را یاد بگیرد. این تکنیک بسیار مهم است؛ زیرا به مدل امکان می‌دهد حتی با مجموعه‌داده‌های کوچک یا ناقص نیز مؤثر آموزش ببیند.

نتیجه این روش آموزشی فوق‌العاده چشمگیر بوده است. مدل Matrix3D با فقط 3 تصویر ورودی می‌تواند بازسازی‌های سه‌بعدی دقیقی از اشیا و حتی کل محیط‌ها تولید کند. این قابلیت می‌تواند کاربردهای بسیار جالبی برای هدست‌های واقعیت ترکیبی اپل ویژن پرو داشته باشد.

کد منبع Matrix3D در گیت‌هاب منتشر شده و مقاله مربوط به آن را نیز در arXiv در دسترس است. همچنین از طریق سایت اختصاصی این مدل می‌توانید نمونه ویدیوهای آن را تماشا کنید.

اپل

اشتراک گذاری:

کپی لینک