شگفتانگیزترین ویدیوهای ساختهشده با جمینای Omni؛ از ترجمه صدا تا شبیهسازی فیزیک [تماشا کنید]
نمونههای ساخته شده توسط مدلی که به ادعای گوگل میتواند همهچیز تولید کند را در این مطلب مشاهده کنید.
گوگل در زمان معرفی خانواده هوش مصنوعی Gemini Omni گفته بود که این مدلها میتوانند هرچیزی ازجمله صدا، ویدیو، عکس و متن تولید کنند. اولین مدل این سری با نام Gemini Omni Flash در اپلیکیشن جمینای، گوگل فلو و یوتوب شورتس در دسترس قرار گرفته و تاکنون کاربران شبکههای اجتماعی ویدیوهای خلاقانه و جالبی با آن تولید کردهاند که در ادامه چند مورد را مشاهده میکنیم.
نمونههای خیرهکننده از عملکرد مدل هوش مصنوعی Gemini Omni
«بیلاوال سیدو»، مدیر محصول سابق گوگل، ازجمله افرادی است که هوش مصنوعی جمینای Omni را آزمایش کرده. او با خطوطی ساده روی یک تصویر مسیری را برای پرواز پهپاد تعیین کرده و از هوش مصنوعی گوگل خواسته تا ویدیویی از زاویه دید پهپاد تولید کند. نتیجه این درخواست را در ویدیو زیر میتوانید مشاهده کنید.
بههمینترتیب، در ویدیو زیر نیز از هوش مصنوعی خواسته شده تا براساس نقاشی ماهی و مسیر تعیین شده برای آن، یک ویدیو کاملاً واقعی بسازد.
ویدیو زیر نیز توسط کاربر دیگری ساخته شده و توانایی جمینای Omni در «انتقال حرکت و استایل» را به رخ میکشد. در این دستور، از مدل خواسته شده حرکتها و ژستهای یک شخص در یک ویدیو را کپی کرده و روی شخصیتی که در یک عکس قرار دارد، پیاده کند. درنهایت هم رنگولعاب و سبک بصری ویدیو را شبیه به یک عکسِ نمونه تغییر دهد.
کاربر دیگری به توانایی مدل در ترجمه صدا پرداخته است. در این مثال از جمینای Omni خواسته شده تا صدای گوینده را در ویدیو به زبانها دیگری (آلمان، اسپانیایی و ژاپنی) ترجمه کند. نکته قابلتوجه اینکه در این مثال متن اصلی یا ترجمه شده به هوش مصنوعی ارائه نشده است و جمینای Omni بهخوبی توانسته صدای جدید را جایگزین کند.
«جاستین مور» که در ایکس معمولاً قابلیتهای هوش مصنوعی را آزمایش میکند نیز تست جالبی را انجام داده است. او ویدیویی از ماشینسواری خود در یک شهر را آپلود کرده و سپس چند اسکرینشات Google Maps از مکانهای دیگر به هوش مصنوعی داده است.
سپس از مدل خواسته شده تا ظاهر ویدیو را براساس آن نقشههای جدید تغییر دهد و در واقع ویدیو را در مکانهای جدید «دوباره فیلمبرداری» کند. هوش مصنوعی توانسته منظره بیرون ماشین را با توجه به لوکیشنهای جدید کاملاً تغییر دهد و جابهجایی بین این مکانها در ویدیو بهقدری روان و یکپارچه انجام شده که هیچ پرش یا قطعی در تصویر دیده نمیشود.
همانطور که گوگل اشاره کرده، تمام ویدیوهای تولیدشده با استفاده از Omni دارای «واترمارک دیجیتال غیرقابلتشخیص SynthID هستند. این واترمارک به کاربران کمک میکند تا بهراحتی تأیید کنند که آیا یک محتوا با هوش مصنوعی گوگل در پلتفرمهایی مثل جمینای، مرورگر کروم و جستجوی گوگل ساخته شده است یا خیر.
دیدگاهها و نظرات خود را بنویسید
برای گفتگو با کاربران ثبت نام کنید یا وارد حساب کاربری خود شوید.
جالب بود
درست زمانی که دنیا در رقابت طراحی و تولید بخشهای چدید تکنولوژی است ، ملت ما دنبال vpn و اینترنت پرو ست ، واقعا توسط چه کسانی و با چه قصدی، مانع حرکت این ملت میشوند؟ این ملت از چه باید متحمل چنین سرنوشتی باشد؟ ملتی که اگر فقط پزشکان شاغلش در کشور آلمان ، یک روز اعتصاب کند ، بخش بهداشت و درمان آلمان فلج خواهدشد!!!
حقیقتا عالی بود
پرچام
وقتی ک به زبان های دیگه ترجمه کرد ، فرم صورت و موهای اون خانم رو هم تغییر داد تا نزدیکتر بشه به افرادی که اون زبون رو صحبت میکنن ...
واقعا دمش گرم
خیره کننده است،واقعا بازار محتوا دستخوش تغییر شده و خواهد شد ،از تولید محتوا بگیر در یوتیوب و غیره تا ترجمه و ساخت کمیک ،برای طراحان انیمه و کمیک نصف بیشتر کار رو جلو میبره ،دیگه نیاز به مترجم نخواهد بود ،همه ازش استفاده میکنند و کاش برای ما انقدر گران نمی افتاد چون خیلی کمک کننده هست ،جمینی همه جوره از چت جی پی تی جلوتره در هر زمینه ای ،کد نویسی و ترجمه و تصویر و ویدیو و .. فقط کافیع یه بار بهش یه تصویر بدید و ازش کمیک بخواید اونموقع میفهمید چی میگم
دیروز مشکل ارسال نظر بود هی خطا می داد
تولید ویدیو چه دقت و کیفیت خوبی داره!