دیپ‌مایند از هوش مصنوعی V2A رونمایی کرد؛ صداگذاری روی ویدیو با دستور متنی [تماشا کنید]

دیپ‌مایند گوگل از هوش مصنوعی V2A خود رونمایی کرد که می‌تواند به ویدیوها موسیقی متن، افکت‌های صوتی و حتی دیالوگ اضافه کند.

نوشته شده توسط آزاد کبیری تاریخ انتشار: ۲۹ خرداد ۱۴۰۳ | ۱۳:۰۰

در دیجیاتو ثبت‌نام کنید

جهت بهره‌مندی و دسترسی به امکانات ویژه و بخش‌های مختلف در دیجیاتو عضو ویژه دیجیاتو شوید.

عضویت در دیجیاتو

ویدئوی مرتبط

تکنولوژی دیجی‌تک؛ چرا گوشی‌های اندروید دیر آپدیت می‌شوند؟

برخی مدل‌های هوش مصنوعی، مانند Sora و Dream Machine، هرچند عملکرد خارق‌العاده‌ای در تولید ویدیو دارند، خروجی آن‌ها بی‌صداست. اکنون دیپ‌مایند گوگل از هوش مصنوعی درحال‌توسعه‌ای به نام «V2A» رونمایی کرده است که برای تولید موسیقی متن و صدا برای فیلم‌ها کاربرد دارد.

دیپ‌مایند فناوری V2A (مخفف «ویدیو به صدا») را به‌عنوان قطعه‌ای ضروری از پازل ساخت ویدیو با هوش مصنوعی معرفی می‌کند. درحالی‌که بسیاری از شرکت‌ها، ازجمله دیپ‌مایند، مدل‌های هوش مصنوعی تولیدکننده ویدیو را توسعه داده‌اند، این مدل‌ها نمی‌توانند افکت‌های صوتی با قابلیت همگام‌سازی روی فریم‌های ویدیوها را فراهم کنند.

هوش مصنوعی دیپ‌مایند گوگل برای صداگذاری روی ویدیوها

دیپ‌مایند می‌گوید: «مدل‌های تولید ویدیو با سرعتی باورنکردنی درحال پیشرفت‌اند اما بسیاری از سیستم‌های فعلی فقط می‌توانند خروجی بی‌صدا تولید کنند. اکنون فناوری V2A می‌تواند به ابزاری امیدوارکننده برای زنده‌کردن این فیلم‌ها تبدیل شود.»

در ویدیوهای این هوش مصنوعی، می‌بینید این فناوری جدید علاوه‌بر دیالوگ می‌تواند موسیقی را متناسب با تصویر تولید کند.

با هوش مصنوعی V2A دیپ‌مایند می‌توانید با توصیف صدا (مثلاً غوطه‌ور شدن عروس‌دریایی زیر آب همراه صدای اقیانوس) به ویدیو خودتان موسیقی، افکت‌های صوتی، حتی دیالوگ‌ اضافه کنید. دیپ‌مایند می‌گوید مدل هوش مصنوعی V2A با ترکیبی از صداها، متن‌های دیالوگ و کلیپ‌های ویدیویی آموزش‌ دیده است.

به گفته دیپ‌مایند، باتوجه‌به داده‌های مختلف مانند ویدیو، صداها و دیالوگ‌ها که V2A با آن‌ها آموزش دیده است، این مدل یاد گرفته صداهای مختلف را با صحنه‌های ویدیویی مرتبط کند. هنوز مشخص نیست دیپ‌مایند دقیقاً از چه داده‌هایی برای آموزش V2A استفاده کرده و این داده‌ها کپی‌رایت دارند یا خیر.

به‌طورکلی ابزارهای تولید صدا با هوش مصنوعی فناوری چندان تازه‌ای نیستند. استارتاپ Stability AI و ElevenLabs نیز پیش‌ازاین از چنین مدل‌هایی رونمایی کرده بودند. اما دیپ‌مایند ادعا می‌کند فناوری V2A منحصربه‌فرد است؛ زیرا می‌تواند فریم‌های ویدیو را درک و صداهای تولیدشده را به‌صورت خودکار با ویدیو همگام کند.

دیپ مایند گوگل

اشتراک گذاری:

کپی لینک