OpenAI هوش مصنوعی Point-E را منتشر کرد؛ تبدیل متن به مدل‌های سه‌بعدی

مدل هوش مصنوعی Point-E می‌تواند براساس داده‌های کاربران که شامل متن و تصویر می‌شود، مدل‌های سه‌بعدی (به‌شکل ابر نقاط) تولید کند.

نوشته شده توسط جواد تاجی تاریخ انتشار: ۳۰ آذر ۱۴۰۱ | ۱۳:۰۰

در دیجیاتو ثبت‌نام کنید

جهت بهره‌مندی و دسترسی به امکانات ویژه و بخش‌های مختلف در دیجیاتو عضو ویژه دیجیاتو شوید.

عضویت در دیجیاتو

استارتاپ هوش مصنوعی OpenAI که ایلان ماسک یکی از بنیان‌گذاران آن است و بیشتر با معرفی مدل DALL-E که متن را به تصویر تبدیل می‌کند، شناخته می‌شود، از انتشار جدیدترین مولد تصویرسازی خود با نام POINT-E خبر داد که می‌تواند براساس پیام‌های متنی کاربران، مدل‌های سه‌بعدی (به‌شکل ابر نقاط) تولید کند. در‌حالی‌که سیستم‌های موجود مانند DreamFusion گوگل برای تولید تصاویر خود معمولاً به چندین ساعت زمان و GPU نیاز دارند، Point-E کار خود را تنها با یک GPU و فقط در یک یا دو دقیقه انجام می‌دهد.

مدل‌سازی سه‌بعدی در صنایع و برنامه‌های مختلفی مورد استفاده قرار می‌گیرد. جلوه‌های CGI فیلم‌های پرفروش مدرن، بازی‌های ویدیویی، VR و AR، مأموریت‌های نقشه‌برداری دهانه ماه ناسا و همچنین دیدگاه متا برای متاورس، همگی به قابلیت‌های مدل‌سازی سه‌بعدی وابسته هستند.

با‌این‌حال، حتی با وجود تلاش انویدیا برای خودکارسازی تولید اشیا و برنامه موبایل RealityCapture اپیک گیمز که به کاربران اجازه می‌دهد با گوشی iOS خود، اشیا دنیای واقعی را به‌عنوان تصاویر سه‌بعدی اسکن کنند، ایجاد تصاویر سه‌بعدی فوتورئالیستی همچنان یک فرایند زمان‌بر است.

نحوه کار مدل هوش مصنوعی Point-E

سیستم‌های هوش مصنوعی تبدیل متن به تصویر مانند DALL-E 2 و Craiyon از OpenAI در سال‌های اخیر به‌سرعت محبوبیت زیادی پیدا کرده‌اند. تبدیل متن به مدل‌های سه‌بعدی نیز شاخه‌ای از این تحقیق محسوب می‌شود. POINT-E برخلاف سیستم‌های مشابه که از مجموعه بزرگی از گره‌ها (متن، تصویر) استفاده می‌کنند و به آن‌ها اجازه می‌دهد تا دستورات متنوع و پیچیده‌ای را دنبال کنند، روی مجموعه داده کوچک‌تری از گره‌ها (تصویر سه‌بعدی) آموزش داده شده است.

تیم OpenAI توضیح می‌دهد که برای تولید یک شیء سه‌بعدی از یک متن، ابتدا یک تصویر با استفاده از مدل متن به تصویر نمونه‌برداری‌‌شده و سپس یک شیء سه‌بعدی براساس تصویر نمونه‌برداری‌شده تهیه می‌شود. هر دو این مراحل را می‌توان در چند ثانیه انجام داد و به روش‌های بهینه‌سازی گران‌قیمت نیاز ندارد.

به عنوان مثال، اگر به این سیستم یک پیام متنی مانند «گربه‌ای که بوریتو می‌خورد» را ارائه کنید، Point-E ابتدا یک نمای مصنوعی رندر سه‌بعدی از گربه در‌حال بوریتو خوردن ایجاد می‌کند. سپس تصویر تولید‌شده را از طریق یک سری مدل‌های انتشار اجرا می‌کند تا ابر نقطه سه‌بعدی و RGB تصویر اولیه را ایجاد کند. در این پروسه، ابتدا یک مدل ابری درشت 1024 نقطه‌ای و سپس یک مدل 4096 نقطه‌ای ظریف‌تر به کاربران ارائه خواهد شد.

اگر دوست دارید تا این مدل هوش مصنوعی را امتحان کنید، OpenAI کد منبع باز پروژه خود را در Github منتشر کرده است.

اشتراک گذاری:

کپی لینک

جواد تاجی

دوران حرفه‌ای من در دنیای فناوری تقریبا به ۱۰ سال قبل برمی‌گرده؛ مسیری که با سخت‌افزار شروع شد، با نرم‌افزار ادامه پیدا کرد و حالا با خبرنگاری حوزه فناوری توی دیجیاتو داره ادامه پیدا می‌کنه. من جوادم و بیشتر از سه دهه از عمرم می‌گذره و علاوه بر دنیای فناوری عاشق فیلم‌و‌سینما، موسیقی کلاسیک‌راک و رئال مادریدم.

مشاهده کلیه مقالات منتشر شده