ثبت بازخورد

لطفا میزان رضایت خود را از دیجیاتو انتخاب کنید.

واقعا راضی‌ام
اصلا راضی نیستم
چطور میتوانیم تجربه بهتری برای شما بسازیم؟

نظر شما با موفقیت ثبت شد.

از اینکه ما را در توسعه بهتر و هدفمند‌تر دیجیاتو همراهی می‌کنید
از شما سپاسگزاریم.

عملکرد مدل هوش مصنوعی متا
هوش مصنوعی

متا مدل هوش مصنوعی جدید CM3Leon را معرفی کرد؛ بهترین ابزار تبدیل متن به تصویر؟

مدل هوش مصنوعی جدید CM3Leon متا مدعی است که در مقایسه با نمونه‌های رقیب ازجمله مدل DALL-E 2، بهترین عملکرد را دارد.

ایمان صاحبی
نوشته شده توسط ایمان صاحبی | ۲۴ تیر ۱۴۰۲ | ۱۲:۰۰

طی دو سال اخیر مدل‌های هوش مصنوعی تولید تصویر رواج بالایی پیدا کرده‌اند و موانع فنی استفاده از آن‌ها تقریباً برطرف شده است. البته این بدان معنا نیست که عملکرد این مدل‌ها پایدار شده و به سطح مناسبی رسیده است؛ ولی متا ادعا می‌کند که با مدل جدید CM3Leon دستاورد مهمی داشته و بهترین نمونه را در این حوزه ساخته است.

متا امروز از مدل هوش مصنوعی جدیدی به نام CM3Leon (یا همان Chameleon یا «آفتاب‌پرست») رونمایی کرده و می‌گوید این سیستم می‌تواند در تبدیل متن به تصویر بهترین عملکرد را به نمایش بگذارد. این مدل همچنین یکی از اولین مدل‌هایی است که می‌تواند برای تصاویر توضیح یا کپشن بنویسد.

CM3Leon یک مدل مبدل یا «ترنسفورمر» است که با استفاده از مکانیزمی موسوم به «توجه» (Attention) سعی می‌کند ارتباط داده‌های موجود ازجمله متن یا تصاویر به یکدیگر را ارزیابی کند. این توجه در کنار دیگر ویژگی‌های مربوط به معماری در مدل‌های ترنسفورمر می‌تواند سرعت آموزش مدل‌ها را افزایش دهد. ساخت مدل‌های ترنسفورمر بزرگ‌تر با افزایش توان پردازشی ممکن می‌شود.

توان موردنیاز برای CM3Leon متا پنج‌برابر کمتر از مدل‌های مشابه است

متا ادعا می‌کند که CM3Leon از اکثر مدل‌های ترنسفورمر بهینه‌تر است، چون به پنج‌برابر توان پردازشی کمتر نیاز دارد و می‌تواند با پایگاه کوچک‌تری از داده‌ها آموزش داده شود. این شرکت برای آموزش مدل خود از میلیون‌ها تصویر از شرکت Shutterstock استفاده کرده است.

قوی‌ترین نسخه از CM3Leon حدود 7 میلیارد پارامتر دارد که تقریباً دو‌برابر مدل DALL-E 2 از شرکت OpenAI است. یکی از قابلیت‌های کلیدی مدل هوش مصنوعی جدید متا که به افزایش قدرت آن کمک کرده، تکنیکی موسوم به «بهینه‌سازی نظارتی» (SFT) است. این تکنیک قبلاً در مدل‌های متنی مثل ChatGPT استفاده شده بود و حالا در مدل‌های تصویری هم خود را ثابت کرده است.

مدل CM3Leon متا می‌تواند فرمان‌های مربوط به ویرایش تصاویر موجود را نیز درک کند. علاوه‌براین، همان‌طور که گفتیم، این مدل قادر است برای تصاویر توضیح کوتاه یا بلند بنویسد. عملکرد CM3Leon در این زمینه حتی از مدل‌های مخصوص خلق کپشن برای تصاویر مثل Flamingo و OpenFlamingo هم بهتر است.

متا هنوز اعلام نکرده که قصد عرضه مدل هوش مصنوعی CM3Leon را دارد یا نه و اگر پاسخ این سؤال مثبت است، این اتفاق چه زمانی خواهد افتاد.

ایمان صاحبی

علاقه من به فناوری به دوره نوجوانی برمی‌گرده اما از حدود سال ۹۴ کار جسته گریخته توی این فضا رو شروع کردم و از ۹۷ به‌طور جدی‌تر وارد این کار شدم. فناوری مخصوصاً بخشی که روی لبه حرکت می‌کنه، جذاب‌ترین قسمت این حوزه برام محسوب می‌شه، اما به مرور فهمیدم که همه حوزه‌ها حتی نقاط تلاقی علم و فناوری می‌تونن خیلی جذاب باشن. در کنار این‌ها دنیای فیلم، سریال و بازی‌های ویدیویی رو هم خیلی دوست دارم.

دیدگاه‌ها و نظرات خود را بنویسید
مطالب پیشنهادی