
هوش مصنوعی FantasyTalking معرفی شد؛ ساخت شخصیتهای سخنگوی واقعگرایانه [تماشا کنید]
هوش مصنوعی جدید چینیها فقط با یک تصویر و فایل صوتی، ویدیوهایی واقعگرایانه با حرکات دقیق لب، چهره، بدن و پسزمینه تولید میکند.

محققان چینی هوش مصنوعی از مدلی نوآورانه با نام FantasyTalking رونمایی کردهاند که میتواند فقط با یک تصویر پرتره ثابت، ویدیوهایی واقعگرایانه و قابلکنترل از چهرههای درحال صحبت تولید کند. این مدل از معماری پیشرفته مبتنیبر Video Diffusion Transformer بهره میبرد و با استفاده از تکنیکهای هماهنگسازی صوتی-تصویری، هماهنگی دقیقی میان حرکات لب، حالات چهره، حرکات بدن و صدای ورودی ایجاد میکند.
طبق توضیحات صفحه Github این پروژه، در قلب آن استراتژی دومرحلهای برای همگامسازی صوت و تصویر وجود دارد.
نحوه تولید آواتار سخنگو توسط هوش مصنوعی FantasyTalking
در مرحله اول، مدل با آموزش در سطح کلیپ، حرکات کلی صحنه شامل چهره، اشیای اطراف و پسزمینه را با صدای ورودی هماهنگ میکند. در مرحله دوم، جزئیات حرکات لب با دقت فریمبهفریم و با استفاده از ماسکهای خاصی اصلاح میشود تا کامل با صدا منطبق شود.
یکی از چالشهای اساسی در حوزه گرافیک و بینایی ماشین تولید آواتارهای متحرک از تصویر ثابت بوده است. اغلب روشهای قبلی برای حفظ واقعگرایی و هماهنگی با صدا، از مدلهای سهبعدی میانجی مثل 3DMM یا FLAME استفاده میکردند اما این روشها در بازتولید حرکات ظریف صورت و انیمیشنهای طبیعی ناکارآمد بودند.
در ویدیو زیر میتوانید برخی نمونههای ساخته این مدل و مدلهای دیگر را با هم مقایسه کنید:
FantasyTalking همچنین از ماژول ویژه برای کنترل شدت حرکات بهره میبرد که امکان تنظیم میزان انیمیشن حالات چهره و بدن را فراهم میکند. این ویژگی تولید ویدیوهایی فراتر از حرکت لبها را ممکن میکند. برخلاف بسیاری از مدلهای دیگر، این سیستم برای حفظ هویت چهره از مکانیزمی مبتنیبر چهره استفاده میکند که نتایج طبیعیتر و یکپارچهتری ارائه میدهد.
از دیگر تواناییهای این مدل میتوان به تولید ویدیوهای حرفزدن شخصیتها با زوایای مختلف (نمای نزدیک، نیمتنه، تمامقد، از روبهرو یا زاویهدار)، پشتیبانی از استایلهای گرافیکی مختلف (واقعگرایانه یا کارتونی) و حتی متحرکسازی (Animate) حیوانات اشاره کرد.
در مقایسه با روشهای بسته و پیشرفتهای مانند OmniHuman-1، مدل FantasyTalking از نظر واقعگرایی، حفظ هویت، انسجام حرکتی و تطابق صوتی-تصویری کیفیت بالاتری ارائه میدهد.
برای گفتگو با کاربران ثبت نام کنید یا وارد حساب کاربری خود شوید.