ثبت بازخورد

لطفا میزان رضایت خود را از دیجیاتو انتخاب کنید.

واقعا راضی‌ام

اصلا راضی نیستم

چطور میتوانیم تجربه بهتری برای شما بسازیم؟

نظر شما با موفقیت ثبت شد.

از اینکه ما را در توسعه بهتر و هدفمند‌تر دیجیاتو همراهی می‌کنید
از شما سپاسگزاریم.

در جریان تغییرات صنعت فناوری بمانید!

جدیدترین اخبار و روندهای دنیای فناوری را با نگاهی دقیق و حرفه‌ای، در کانال تلگرام دیجیاتو دنبال کنید.

ورود به کانال تلگرام دیجیاتو

هوش مصنوعی FantasyTalking

هوش مصنوعی

هوش مصنوعی FantasyTalking معرفی شد؛ ساخت شخصیت‌های سخنگوی واقع‌گرایانه [تماشا کنید]

هوش مصنوعی جدید چینی‌ها فقط با یک تصویر و فایل صوتی، ویدیوهایی واقع‌گرایانه با حرکات دقیق لب، چهره، بدن و پس‌زمینه تولید می‌کند.

نوشته شده توسط جواد تاجی تاریخ انتشار: ۲۴ فروردین ۱۴۰۴ | ۱۳:۰۰

در دیجیاتو ثبت‌نام کنید

جهت بهره‌مندی و دسترسی به امکانات ویژه و بخش‌های مختلف در دیجیاتو عضو ویژه دیجیاتو شوید.

عضویت در دیجیاتو

ویدئوی مرتبط

ویدیو دیجی‌تک؛ اینترنت چین چقدر محدود است؟

محققان چینی هوش مصنوعی از مدلی نوآورانه با نام FantasyTalking رونمایی کرده‌اند که می‌تواند فقط با یک تصویر پرتره ثابت، ویدیوهایی واقع‌گرایانه و قابل‌کنترل از چهره‌های درحال صحبت‌ تولید کند. این مدل از معماری پیشرفته مبتنی‌بر Video Diffusion Transformer بهره می‌برد و با استفاده از تکنیک‌های هماهنگ‌سازی صوتی-تصویری، هماهنگی دقیقی میان حرکات لب، حالات چهره، حرکات بدن و صدای ورودی ایجاد می‌کند.

طبق توضیحات صفحه Github این پروژه، در قلب آن استراتژی دومرحله‌ای برای همگام‌سازی صوت و تصویر وجود دارد.

نحوه تولید آواتار سخنگو توسط هوش مصنوعی FantasyTalking

در مرحله اول، مدل با آموزش در سطح کلیپ، حرکات کلی صحنه شامل چهره، اشیای اطراف و پس‌زمینه را با صدای ورودی هماهنگ می‌کند. در مرحله دوم، جزئیات حرکات لب با دقت فریم‌به‌فریم و با استفاده از ماسک‌های خاصی اصلاح می‌شود تا کامل با صدا منطبق شود.

یکی از چالش‌های اساسی در حوزه‌ گرافیک و بینایی ماشین تولید آواتارهای متحرک از تصویر ثابت بوده است. اغلب روش‌های قبلی برای حفظ واقع‌گرایی و هماهنگی با صدا، از مدل‌های سه‌بعدی میانجی مثل 3DMM یا FLAME استفاده می‌کردند اما این روش‌ها در بازتولید حرکات ظریف صورت و انیمیشن‌های طبیعی ناکارآمد بودند.

در ویدیو زیر می‌توانید برخی نمونه‌های ساخته‌ این مدل و مدل‌های دیگر را با هم مقایسه کنید:

FantasyTalking همچنین از ماژول ویژه برای کنترل شدت حرکات بهره می‌برد که امکان تنظیم میزان انیمیشن حالات چهره و بدن را فراهم می‌کند. این ویژگی تولید ویدیوهایی فراتر از حرکت لب‌ها را ممکن می‌کند. برخلاف بسیاری از مدل‌های دیگر، این سیستم برای حفظ هویت چهره از مکانیزمی مبتنی‌بر چهره استفاده می‌کند که نتایج طبیعی‌تر و یکپارچه‌تری ارائه می‌دهد.

از دیگر توانایی‌های این مدل می‌توان به تولید ویدیوهای حرف‌زدن شخصیت‌ها با زوایای مختلف (نمای نزدیک، نیم‌تنه، تمام‌قد، از روبه‌رو یا زاویه‌دار)، پشتیبانی از استایل‌های گرافیکی مختلف (واقع‌گرایانه یا کارتونی) و حتی متحرک‌سازی (Animate) حیوانات اشاره کرد.

در مقایسه با روش‌های بسته و پیشرفته‌ای مانند OmniHuman-1، مدل FantasyTalking از نظر واقع‌گرایی، حفظ هویت، انسجام حرکتی و تطابق صوتی-تصویری کیفیت بالاتری ارائه می‌دهد.

چین

اشتراک گذاری:

کپی لینک

جواد تاجی

جواد تاجی

دوران حرفه‌ای من در دنیای فناوری تقریبا به ۱۰ سال قبل برمی‌گرده؛ مسیری که با سخت‌افزار شروع شد، با نرم‌افزار ادامه پیدا کرد و حالا با خبرنگاری حوزه فناوری توی دیجیاتو داره ادامه پیدا می‌کنه. من جوادم و بیشتر از سه دهه از عمرم می‌گذره و علاوه بر دنیای فناوری عاشق فیلم‌و‌سینما، موسیقی کلاسیک‌راک و رئال مادریدم.

مشاهده کلیه مقالات منتشر شده

مقالات و اخبار مرتبط

دیدگاه‌ها و نظرات خود را بنویسید

برای گفتگو با کاربران ثبت نام کنید یا وارد حساب کاربری خود شوید.

مطالب پیشنهادی

پیشنهادهای دیجیاتو