تکنولوژی

محققان محتوای صوتی مونو را به صدای ۲.۵ بعدی تبدیل کردند

امین قیاسی منتشر شده در ۹ دی ۱۳۹۷ | ۱۷:۰۰

در دیجیاتو ثبت‌نام کنید

جهت بهره‌مندی و دسترسی به امکانات ویژه و بخش‌های مختلف در دیجیاتو عضو ویژه دیجیاتو شوید.

عضویت در دیجیاتو

ویدئوی مرتبط

ویدیو دیجی‌تک؛ هوش مصنوعی به زبان ساده

پژوهشگران دانشگاه تگزاس واقع در شهر آستین با همکاری موسسه تحقیقاتی هوش مصنوعی فیسبوک موفق شدند محتوای صوتی مونو را به صدای ۲.۵ بعدی تبدیل کنند. سیستم طراحی شده توسط این محققان، با استفاده از یادگیری ماشینی سعی می‌کند در ویدیو، محل دقیق اشیا و تنظیمات صحنه‌ای موجود را تخمین بزنند و محتوای صوتی مونو را بر اساس محل انتشارشان تقسیم کنند.

بدین ترتیب یک محتوای صوتی 2.5 بعدی تولید می‌شود که تجربه نابی را فراهم می آورد و کاربر می‌تواند حضور خود را در همان محل حس کند. این تکنولوژی می‌تواند برای تبدیل محتوا فیلم‌های قدیمی یا محتوای معمولی و تبدیل آن به صوت مناسب برای هدست های VR بکار رود.

همانطور که می‌دانید گوش انسان توانایی تشخیص و تخمین فاصله یا موقعیت محل انتشار صوت را نسبت به خود داراست. مغز با ترکیب اصوات دریافت شده توسط دو گوش و آنالیز فاضله شنیده شدن آنها، قادر است فاصله یا جهت منبع انتشار کننده‌ی صوت را تخمین بزند.

برای مثال اگر صوتی چند هزارم ثانیه به گوش خاصی زودتر برسد مغز فرمان می‌دهد که این صدا از سمت همان گوش منتشر شده است. این مسئله موجب شده که توسعه‌ دهندگان محتوای صوتی سه بعدی، بتوانند چنین تجربه‌ای برای کاربر فراهم آورند.

آنها با ضبط کردن صدای موجود به وسیله‌ی دو یا چند میکروفون می‌توانند تجربیات متفاوتی از صدا را فراهم آورند و صدای طبیعیتری برای مخاطب فراهم اورند. برای مثال با استفاده از همین روش، محتوای صوتی اجراهای موسیقی خاصی ضبط شده است.

با این وجود، هنوز بیشتر محتوای صوتی ضبط شده تک کاناله است و گوش انسان نمی تواند محل پخش محتوای سه بعدی را تخمین بزند. به همین دلیل کاربران قادر نیستند حس کنند در محل به خصوصی حظور دارند و صرفاً صدای موجود را گوش می‌دهند.

از این رو سیستم طراحی شده توسط این شرکت می‌تواند بسیار روش مفیدی باشد و در آینده‌ای نزدیک شاید بازسازی محتوای بسیار زیادی را با استفاده از همین روش دوباره بشنویم.