تکنولوژی

هوش مصنوعی جدید مایکروسافت امکان درک محتوای تصاویر و حل پازل را دارد

هوش مصنوعی جدید مایکروسافت قادر به نوشتن توضیح برای تصاویر، جواب به سؤالات درباره محتوای آن‌ها و پاسخ به آزمون IQ است.

نوشته شده توسط امیرحسین امام‌جمعه تاریخ انتشار: ۱۱ اسفند ۱۴۰۱ | ۱۴:۰۰

در دیجیاتو ثبت‌نام کنید

جهت بهره‌مندی و دسترسی به امکانات ویژه و بخش‌های مختلف در دیجیاتو عضو ویژه دیجیاتو شوید.

عضویت در دیجیاتو

ویدئوی مرتبط

تکنولوژی گزارش ویدیویی: ده نکته جالب درمورد بیل گیتس که باید بدانید

پژوهشگران هوش مصنوعی در مایکروسافت به‌تازگی از مدل جدیدی رونمایی کرده‌اند که می‌تواند محتوای تصاویر را بررسی و درک کند و قابلیت‌های دیگری مثل حل پازل، تشخیص متن و درک دستورات زبانی را نیز به‌همراه دارد.

هوش مصنوعی Kosmos-1 مایکروسافت چه امکاناتی دارد؟

هوش مصنوعی جدید مایکروسافت که از چندین ماژول تشکیل شده است، Kosmos-1 نام دارد. سازندگان آن معتقدند که این ابزار یک گام کلیدی برای دستیابی به هوش جامع مصنوعی (AGI) محسوب می‌شود که قادر است وظایف عمومی را در سطح انسان به انجام برساند. نکته حائز اهمیت این است که محصول آزمایشی جدید مایکروسافت می‌تواند از انواع ورودی‌های مختلف مثل متن، صدا، تصویر و حتی ویدئو برای دریافت دستورات استفاده کند و از این لحاظ کمی با نمونه‌های فعلی شناخته‌شده متفاوت است.

مثال‌های تصویری منتشر‌شده از هوش مصنوعی مذکور در مقاله پژوهشی مرتبط با آن، نشان می‌دهند که این ابزار امکان بررسی تصاویر و پاسخ به سؤالات مرتبط با محتوای آن‌ها را دارد. خواندن متن در عکس‌ها و نوشتن توضیحات پیرامون آن‌ها از دیگر مواردی است که این هوش مصنوعی می‌تواند انجام دهد. اگرچه درحال‌حاضر توجه رسانه‌ای فراوانی روی مدل‌های زبانی عظیم (LLM) هوش مصنوعی وجود دارد، اما کارشناسان عقیده دارند که ابزارهای مبتنی بر چند ماژول می‌توانند پتانسیل بیشتری برای تبدیل‌شدن به هوش مصنوعی جامع باشند. دستیابی به چنین ابزاری هدف نهایی بسیاری از شرکت‌های فعال در این زمینه، ازجمله OpenAI سازنده ChatGPT است که همکاری نزدیکی هم با مایکروسافت دارد.

البته به‌نظر می‌رسد که هوش مصنوعی جدید مایکروسافت به‌شکل مستقل از OpenAI و تنها توسط ردموندی‌ها توسعه یافته باشد. سازندگان آن محصول خود را یک مدل چند‌ماژوله زبانی عظیم (MLLM) توصیف می‌کنند؛ زیرا با وجود پشتیبانی از ورودی‌های مختلف دستوری، بازهم پردازش‌های نهایی آن براساس مدل متن محور LLM و مشابه با ابزارهای کنونی مانند ChatGPT صورت می‌گیرد. به همین دلیل کاملاً طبیعی است که برای درک تصاویر توسط این هوش مصنوعی ابتدا محتوای آن‌ها باید به متن تبدیل شود.

مایکروسافت از داده‌های موجود روی اینترنت برای تعلیم هوش مصنوعی جدید خود استفاده کرده است که ازجمله منابع آن می‌توان به گزیده The Pile (مجموعه ۸۰۰ گیگابایتی از متون انگلیسی) و Common Crawl اشاره کرد. پس از تمرین‌های اولیه، عملکرد ابزار مورد‌بحث در آزمایش‌های مختلف مثل تست‌های درک زبانی، تشخیص کاراکترهای تصویری، نوشتن توضیحات برای عکس‌ها، پاسخ به سؤالات از تصاویر یا صفحات اینترنتی و... مورد ارزیابی قرار گرفت. طبق ادعای مایکروسافت، این محصول در بسیاری از تست‌ها توانسته است تا مدل‌های فعلی مورد استفاده را پشت سر بگذارد.

یکی از تست‌های جالبی که Kosmos-1 توانسته است در آن عملکرد قابل‌قبولی از خود نشان دهد، آزمون ریون (Raven) بوده است. ماتریس پیش‌رونده ریون برای ارزیابی IQ براساس پیش‌بینی توالی‌های تصویری طراحی شده و در رده آزمون‌های گروهی غیرکلامی هوش قرار می‌گیرد که در اغلب اوقات در مراکز آموزشی استفاده می‌شود. هوش مصنوعی مایکروسافت توانسته است در تلاش‌های خود ۲۲ الی ۲۶ درصد از سؤالات را با موفقیت پاسخ دهد؛ مقداری که اگرچه کم به‌نظر می‌رسد، ولی از حالت پاسخ تصادفی با نرخ ۱۷ درصد، فاصله محسوسی دارد.

محصول تازه مایکروسافت در مراحل اولیه قرار دارد و پیش‌بینی می‌شود که در آینده با بهینه‌سازی‌های بیشتر می‌تواند عملکرد بهتری را از خود نشان دهد. چنین مدل‌های هوش مصنوعی که می‌توانند از ورودی‌های گوناگونی پشتیبانی کنند، پتانسیل بالایی برای استفاده به‌عنوان دستیارهای مصنوعی توسط کاربران دارند. احتمال می‌رود که محققان مایکروسافت با گسترش ابداع خود بتوانند ویژگی‌های دیگر ازجمله تکلم را هم به آن اضافه نمایند. مایکروسافت اعلام کرده است که قصد دارد Kosmos-1 را در اختیار توسعه‌دهندگان قرار دهد، ولی هنوز تاریخ دقیقی برای انتشار کدها اعلام نکرده است.