ثبت بازخورد

لطفا میزان رضایت خود را از دیجیاتو انتخاب کنید.

واقعا راضی‌ام
اصلا راضی نیستم
چطور میتوانیم تجربه بهتری برای شما بسازیم؟

نظر شما با موفقیت ثبت شد.

از اینکه ما را در توسعه بهتر و هدفمند‌تر دیجیاتو همراهی می‌کنید
از شما سپاسگزاریم.

هوش مصنوعی تبدیل عکس به ویدیو
هوش مصنوعی

هوش مصنوعی EMO برای تبدیل عکس به ویدیو توسط علی‌بابا معرفی شد [تماشا کنید]

این مدل می‌تواند عکس‌های شما را به ویدیوهای واقعی تبدیل کند که در آن‌ها در حال صحبت‌کردن یا آوازخواندن هستید.

جواد تاجی
نوشته شده توسط جواد تاجی | ۱۰ اسفند ۱۴۰۲ | ۱۸:۰۰

محققان شرکت چینی علی‌بابا (Alibaba)، سیستم هوش مصنوعی جدیدی به نام «EMO» (مخفف Emote Portrait Alive) را توسعه داده‌اند که می‌تواند یک عکس پرتره را به ویدیو تبدیل کند. به‌طور خلاصه، این مدل می‌تواند عکس‌های شما را به ویدیوهای واقعی تبدیل کند که در آن‌ها در حال صحبت‌کردن یا آوازخواندن هستید.

براساس مقاله تحقیقاتی علی‌بابا، این مدل می‌تواند حرکات اجزای صورت و حالت‌های سر کاربران را به‌صورتی ایجاد کند که دقیقا با آهنگ صوتی ارائه‌شده مطابقت داشته باشد. همچنین از این مدل به‌عنوان یک پیشرفت بزرگ در زمینه تولید ویدیو براساس صدا یاد شده است، حوزه‌ای که محققان هوش مصنوعی سال‌ها آن را به چالش کشیده‌‌اند.

«لینروی تیان»، محقق اصلی این سیستم می‌گوید:

«تکنیک‌های سنتی اغلب نمی‌توانند طیف کاملی از حالات انسانی و منحصر‌به‌فردبودن سبک‌های صورت اشخاص را به تصوی بکشند. برای حل این مشکل، ما EMO را پیشنهاد می کنیم، یک چارچوب جدید که از رویکرد مستقیم صوتی به تصویر استفاده می‌کند و به مدل‌های سه‌بعدی متوسط یا نشانه‌های چهره نیازی ندارد.»

نحوه کار مدل تبدیل عکس به ویدیو علی‌بابا

مدل تبدیل عکس به ویدیو EMO از یک تکنیک هوش مصنوعی معروف به مدل انتشار استفاده می‌کند که از نظر تولید تصاویر واقعی، پتانسیل بسیار خوبی از خود نشان داده است. محققان این مدل را با مجموعه داده‌ای متشکل از 250 ساعت ویدیو‌های مربوط به سخنرانی‌ها، فیلم‌ها، نمایش‌های تلویزیونی و اجرای آواز آموزش داده‌اند.

برخلاف مدل‌های سنتی که بر مدل‌های سه‌بعدی صورت یا ترکیب اشکال برای تقریب حرکات صورت تکیه دارند، EMO می‌تواند مستقیما شکل موج صوتی را به فریم‌های ویدیویی تبدیل کند. این امر به آن اجازه می‌دهد تا حرکات ظریف و ویژگی‌های پیچیده هویتی مرتبط با گفتار طبیعی را نمایش دهد.

طبق آزمایش‌هایی که در مقاله توضیح داده شده، EMO به طور قابل‌توجهی از روش‌های پیشرفته موجود در معیارهای اندازه‌گیری کیفیت ویدیو، حفظ هویت و بیان بهتر استفاده می‌کند. محققان همچنین یک مطالعه روی کاربران انجام دادند که نشان داد ویدیوهای تولید شده توسط EMO طبیعی‌تر و احساسی‌تر از ویدیوهای تولیدشده توسط سایر سیستم‌ها هستند.

جواد تاجی

دوران حرفه‌ای من توی دنیای فناوری تقریبا به ۱۰ سال قبل برمی‌گرده؛ مسیری که با سخت‌افزار شروع شد، با نرم‌افزار ادامه پیدا کرد و حالا با خبرنگاری حوزه فناوری توی دیجیاتو داره ادامه پیدا می‌کنه. من جوادم و نزدیک به سه دهه از عمرم می‌گذره و علاوه بر دنیای فناوری عاشق فیلم‌و‌سینما، موسیقی کلاسیک‌راک و رئال مادریدم.

دیدگاه‌ها و نظرات خود را بنویسید
مطالب پیشنهادی