این هوش مصنوعی می‌تواند از روی صدا ظاهر دقیق خیابان‌ها را به تصویر بکشد

این هوش مصنوعی براساس صداهای ضبط‌شده از خیابان‌های برخی شهرهای جهان، توانسته تصویر دقیق آنها را تولید کند.

نوشته شده توسط جواد تاجی تاریخ انتشار: ۱۴ آذر ۱۴۰۳ | ۱۵:۳۰

در دیجیاتو ثبت‌نام کنید

جهت بهره‌مندی و دسترسی به امکانات ویژه و بخش‌های مختلف در دیجیاتو عضو ویژه دیجیاتو شوید.

محققان سیستم هوش مصنوعی جدیدی را توسعه داده‌اند که می‌تواند براساس صدایی ضبط‌‌شده، تصاویر دقیقی از آن محل تولید کند. در این تحقیق، ابتدا چند صدای ضبط‌شده از خیابان‌های شهرهای مختلف جهان به هو‌ش مصنو‌عی داده شد، سپس مدل تصاویر دقیقی برای خیابان‌ها تولید کرد.

طبق گزارش‌های منتشرشده، تیمی از محققان دانشگاه تگزاس در این تحقیق به‌دنبال پاسخ این سؤال بودند که هوش مصنوعی فقط با بریده‌های صوتی می‌تواند ویژگی‌های بصری محیط خود را درک کند یا خیر. مهارتی که زمانی تصور می‌شد منحصر به انسان‌هاست.

توانایی هوش مصنوعی در درک محیط از صدای ضبط‌شده

آنها در مقاله خود توضیح می‌دهند که ابتدا 100 کلیپ ویدیویی و صوتی یوتوب از شهرهایی در آمریکای شمالی، آسیا و اروپا را جمع‌ کردند. سپس از این کلیپ‌ها برای آموزش مدل هوش مصنوعی استفاده کردند که می‌تواند براساس ورودی‌های صوتی، تصاویری با وضوح بالا از محیط‌های مختلف تولید کند.

در مرحله بعدی، به این هوش‌‌‌ مصنوعی کلیپ‌های 10 ثانیه‌ای صوتی داده و از آن خواسته شد تصاویری با وضوح بالا از شکل ظاهری محیط تولید کند.

برای تعیین میزان دقت تصاویر نیز گروهی از افراد در نقش داور در تحقیق حضور داشتند. برای این داوران خروجی هوش مصنوعی و صدایی که تصاویر براساس آنها تولید شده، پخش شد سپس از آنها خواسته شد تشخیص بدهند کدام تصویر با صدا مطابقت دارد. به‌طور میانگین 80 درصد مواقع تشخیص داوران درست بود.

طبق بیانیه‌ای که دانشگاه تگزاس منتشر کرده، دقت تصاویر ساخته این مدل هوش مصنوعی نشان می‌دهد ماشین‌ها به‌خوبی می‌توانند ارتباط انسانی بین ادراک صوتی و تصویری محیط‌ها را شبیه‌سازی کنند.

«یوهائو کانگ»، یکی از نویسندگان این مطالعه، می‌گوید:

«تحقیق ما نشان می‌دهد محیط‌های صوتی به اندازه کافی حاوی نشانه‌های بصری برای تولید تصاویر قابل‌تشخیص از مناظر خیابانی هستند که مکان‌های مختلف در آن با دقت نشان داده می‌شود؛ یعنی می‌توانید محیط‌های آکوستیک را به نمایش‌های بصری واضح و به‌طور مؤثرتر صداها را به مناظر تبدیل کنید.»

یادگیری ماشینی

اشتراک گذاری:

کپی لینک

جواد تاجی

دوران حرفه‌ای من در دنیای فناوری تقریبا به ۱۰ سال قبل برمی‌گرده؛ مسیری که با سخت‌افزار شروع شد، با نرم‌افزار ادامه پیدا کرد و حالا با خبرنگاری حوزه فناوری توی دیجیاتو داره ادامه پیدا می‌کنه. من جوادم و بیشتر از سه دهه از عمرم می‌گذره و علاوه بر دنیای فناوری عاشق فیلم‌و‌سینما، موسیقی کلاسیک‌راک و رئال مادریدم.

مشاهده کلیه مقالات منتشر شده