OpenAI هوش مصنوعی Point-E را منتشر کرد؛ تبدیل متن به مدلهای سهبعدی
مدل هوش مصنوعی Point-E میتواند براساس دادههای کاربران که شامل متن و تصویر میشود، مدلهای سهبعدی (بهشکل ابر نقاط) تولید کند.
استارتاپ هوش مصنوعی OpenAI که ایلان ماسک یکی از بنیانگذاران آن است و بیشتر با معرفی مدل DALL-E که متن را به تصویر تبدیل میکند، شناخته میشود، از انتشار جدیدترین مولد تصویرسازی خود با نام POINT-E خبر داد که میتواند براساس پیامهای متنی کاربران، مدلهای سهبعدی (بهشکل ابر نقاط) تولید کند. درحالیکه سیستمهای موجود مانند DreamFusion گوگل برای تولید تصاویر خود معمولاً به چندین ساعت زمان و GPU نیاز دارند، Point-E کار خود را تنها با یک GPU و فقط در یک یا دو دقیقه انجام میدهد.
مدلسازی سهبعدی در صنایع و برنامههای مختلفی مورد استفاده قرار میگیرد. جلوههای CGI فیلمهای پرفروش مدرن، بازیهای ویدیویی، VR و AR، مأموریتهای نقشهبرداری دهانه ماه ناسا و همچنین دیدگاه متا برای متاورس، همگی به قابلیتهای مدلسازی سهبعدی وابسته هستند.
بااینحال، حتی با وجود تلاش انویدیا برای خودکارسازی تولید اشیا و برنامه موبایل RealityCapture اپیک گیمز که به کاربران اجازه میدهد با گوشی iOS خود، اشیا دنیای واقعی را بهعنوان تصاویر سهبعدی اسکن کنند، ایجاد تصاویر سهبعدی فوتورئالیستی همچنان یک فرایند زمانبر است.
نحوه کار مدل هوش مصنوعی Point-E
سیستمهای هوش مصنوعی تبدیل متن به تصویر مانند DALL-E 2 و Craiyon از OpenAI در سالهای اخیر بهسرعت محبوبیت زیادی پیدا کردهاند. تبدیل متن به مدلهای سهبعدی نیز شاخهای از این تحقیق محسوب میشود. POINT-E برخلاف سیستمهای مشابه که از مجموعه بزرگی از گرهها (متن، تصویر) استفاده میکنند و به آنها اجازه میدهد تا دستورات متنوع و پیچیدهای را دنبال کنند، روی مجموعه داده کوچکتری از گرهها (تصویر سهبعدی) آموزش داده شده است.
تیم OpenAI توضیح میدهد که برای تولید یک شیء سهبعدی از یک متن، ابتدا یک تصویر با استفاده از مدل متن به تصویر نمونهبرداریشده و سپس یک شیء سهبعدی براساس تصویر نمونهبرداریشده تهیه میشود. هر دو این مراحل را میتوان در چند ثانیه انجام داد و به روشهای بهینهسازی گرانقیمت نیاز ندارد.
به عنوان مثال، اگر به این سیستم یک پیام متنی مانند «گربهای که بوریتو میخورد» را ارائه کنید، Point-E ابتدا یک نمای مصنوعی رندر سهبعدی از گربه درحال بوریتو خوردن ایجاد میکند. سپس تصویر تولیدشده را از طریق یک سری مدلهای انتشار اجرا میکند تا ابر نقطه سهبعدی و RGB تصویر اولیه را ایجاد کند. در این پروسه، ابتدا یک مدل ابری درشت 1024 نقطهای و سپس یک مدل 4096 نقطهای ظریفتر به کاربران ارائه خواهد شد.
اگر دوست دارید تا این مدل هوش مصنوعی را امتحان کنید، OpenAI کد منبع باز پروژه خود را در Github منتشر کرده است.
برای گفتگو با کاربران ثبت نام کنید یا وارد حساب کاربری خود شوید.