ثبت بازخورد

لطفا میزان رضایت خود را از دیجیاتو انتخاب کنید.

واقعا راضی‌ام
اصلا راضی نیستم
چطور میتوانیم تجربه بهتری برای شما بسازیم؟

نظر شما با موفقیت ثبت شد.

از اینکه ما را در توسعه بهتر و هدفمند‌تر دیجیاتو همراهی می‌کنید
از شما سپاسگزاریم.

هوش مصنوعی
تکنولوژی

OpenAI هوش مصنوعی Point-E را منتشر کرد؛ تبدیل متن به مدل‌های سه‌بعدی

مدل هوش مصنوعی Point-E می‌تواند براساس داده‌های کاربران که شامل متن و تصویر می‌شود، مدل‌های سه‌بعدی (به‌شکل ابر نقاط) تولید کند.

جواد تاجی
نوشته شده توسط جواد تاجی | ۳۰ آذر ۱۴۰۱ | ۱۳:۰۰

استارتاپ هوش مصنوعی OpenAI که ایلان ماسک یکی از بنیان‌گذاران آن است و بیشتر با معرفی مدل DALL-E که متن را به تصویر تبدیل می‌کند، شناخته می‌شود، از انتشار جدیدترین مولد تصویرسازی خود با نام POINT-E خبر داد که می‌تواند براساس پیام‌های متنی کاربران، مدل‌های سه‌بعدی (به‌شکل ابر نقاط) تولید کند. در‌حالی‌که سیستم‌های موجود مانند DreamFusion گوگل برای تولید تصاویر خود معمولاً به چندین ساعت زمان و GPU نیاز دارند، Point-E کار خود را تنها با یک GPU و فقط در یک یا دو دقیقه انجام می‌دهد.

مدل‌سازی سه‌بعدی در صنایع و برنامه‌های مختلفی مورد استفاده قرار می‌گیرد. جلوه‌های CGI فیلم‌های پرفروش مدرن، بازی‌های ویدیویی، VR و AR، مأموریت‌های نقشه‌برداری دهانه ماه ناسا و همچنین دیدگاه متا برای متاورس، همگی به قابلیت‌های مدل‌سازی سه‌بعدی وابسته هستند.

با‌این‌حال، حتی با وجود تلاش انویدیا برای خودکارسازی تولید اشیا و برنامه موبایل RealityCapture اپیک گیمز که به کاربران اجازه می‌دهد با گوشی iOS خود، اشیا دنیای واقعی را به‌عنوان تصاویر سه‌بعدی اسکن کنند، ایجاد تصاویر سه‌بعدی فوتورئالیستی همچنان یک فرایند زمان‌بر است.

نحوه کار مدل هوش مصنوعی Point-E

Point-E

سیستم‌های هوش مصنوعی تبدیل متن به تصویر مانند DALL-E 2 و Craiyon از OpenAI در سال‌های اخیر به‌سرعت محبوبیت زیادی پیدا کرده‌اند. تبدیل متن به مدل‌های سه‌بعدی نیز شاخه‌ای از این تحقیق محسوب می‌شود. POINT-E برخلاف سیستم‌های مشابه که از مجموعه بزرگی از گره‌ها (متن، تصویر) استفاده می‌کنند و به آن‌ها اجازه می‌دهد تا دستورات متنوع و پیچیده‌ای را دنبال کنند، روی مجموعه داده کوچک‌تری از گره‌ها (تصویر سه‌بعدی) آموزش داده شده است.

تیم OpenAI توضیح می‌دهد که برای تولید یک شیء سه‌بعدی از یک متن، ابتدا یک تصویر با استفاده از مدل متن به تصویر نمونه‌برداری‌‌شده و سپس یک شیء سه‌بعدی براساس تصویر نمونه‌برداری‌شده تهیه می‌شود. هر دو این مراحل را می‌توان در چند ثانیه انجام داد و به روش‌های بهینه‌سازی گران‌قیمت نیاز ندارد.

به عنوان مثال، اگر به این سیستم یک پیام متنی مانند «گربه‌ای که بوریتو می‌خورد» را ارائه کنید، Point-E ابتدا یک نمای مصنوعی رندر سه‌بعدی از گربه در‌حال بوریتو خوردن ایجاد می‌کند. سپس تصویر تولید‌شده را از طریق یک سری مدل‌های انتشار اجرا می‌کند تا ابر نقطه سه‌بعدی و RGB تصویر اولیه را ایجاد کند. در این پروسه، ابتدا یک مدل ابری درشت 1024 نقطه‌ای و سپس یک مدل 4096 نقطه‌ای ظریف‌تر به کاربران ارائه خواهد شد.

اگر دوست دارید تا این مدل هوش مصنوعی را امتحان کنید، OpenAI کد منبع باز پروژه خود را در Github منتشر کرده است.

جواد تاجی

دوران حرفه‌ای من توی دنیای فناوری تقریبا به ۱۰ سال قبل برمی‌گرده؛ مسیری که با سخت‌افزار شروع شد، با نرم‌افزار ادامه پیدا کرد و حالا با خبرنگاری حوزه فناوری توی دیجیاتو داره ادامه پیدا می‌کنه. من جوادم و نزدیک به سه دهه از عمرم می‌گذره و علاوه بر دنیای فناوری عاشق فیلم‌و‌سینما، موسیقی کلاسیک‌راک و رئال مادریدم.

دیدگاه‌ها و نظرات خود را بنویسید
مطالب پیشنهادی