هوش مصنوعی جدید مایکروسافت امکان درک محتوای تصاویر و حل پازل را دارد
هوش مصنوعی جدید مایکروسافت قادر به نوشتن توضیح برای تصاویر، جواب به سؤالات درباره محتوای آنها و پاسخ به آزمون IQ است.
پژوهشگران هوش مصنوعی در مایکروسافت بهتازگی از مدل جدیدی رونمایی کردهاند که میتواند محتوای تصاویر را بررسی و درک کند و قابلیتهای دیگری مثل حل پازل، تشخیص متن و درک دستورات زبانی را نیز بههمراه دارد.
هوش مصنوعی Kosmos-1 مایکروسافت چه امکاناتی دارد؟
هوش مصنوعی جدید مایکروسافت که از چندین ماژول تشکیل شده است، Kosmos-1 نام دارد. سازندگان آن معتقدند که این ابزار یک گام کلیدی برای دستیابی به هوش جامع مصنوعی (AGI) محسوب میشود که قادر است وظایف عمومی را در سطح انسان به انجام برساند. نکته حائز اهمیت این است که محصول آزمایشی جدید مایکروسافت میتواند از انواع ورودیهای مختلف مثل متن، صدا، تصویر و حتی ویدئو برای دریافت دستورات استفاده کند و از این لحاظ کمی با نمونههای فعلی شناختهشده متفاوت است.
مثالهای تصویری منتشرشده از هوش مصنوعی مذکور در مقاله پژوهشی مرتبط با آن، نشان میدهند که این ابزار امکان بررسی تصاویر و پاسخ به سؤالات مرتبط با محتوای آنها را دارد. خواندن متن در عکسها و نوشتن توضیحات پیرامون آنها از دیگر مواردی است که این هوش مصنوعی میتواند انجام دهد. اگرچه درحالحاضر توجه رسانهای فراوانی روی مدلهای زبانی عظیم (LLM) هوش مصنوعی وجود دارد، اما کارشناسان عقیده دارند که ابزارهای مبتنی بر چند ماژول میتوانند پتانسیل بیشتری برای تبدیلشدن به هوش مصنوعی جامع باشند. دستیابی به چنین ابزاری هدف نهایی بسیاری از شرکتهای فعال در این زمینه، ازجمله OpenAI سازنده ChatGPT است که همکاری نزدیکی هم با مایکروسافت دارد.
البته بهنظر میرسد که هوش مصنوعی جدید مایکروسافت بهشکل مستقل از OpenAI و تنها توسط ردموندیها توسعه یافته باشد. سازندگان آن محصول خود را یک مدل چندماژوله زبانی عظیم (MLLM) توصیف میکنند؛ زیرا با وجود پشتیبانی از ورودیهای مختلف دستوری، بازهم پردازشهای نهایی آن براساس مدل متن محور LLM و مشابه با ابزارهای کنونی مانند ChatGPT صورت میگیرد. به همین دلیل کاملاً طبیعی است که برای درک تصاویر توسط این هوش مصنوعی ابتدا محتوای آنها باید به متن تبدیل شود.
مایکروسافت از دادههای موجود روی اینترنت برای تعلیم هوش مصنوعی جدید خود استفاده کرده است که ازجمله منابع آن میتوان به گزیده The Pile (مجموعه ۸۰۰ گیگابایتی از متون انگلیسی) و Common Crawl اشاره کرد. پس از تمرینهای اولیه، عملکرد ابزار موردبحث در آزمایشهای مختلف مثل تستهای درک زبانی، تشخیص کاراکترهای تصویری، نوشتن توضیحات برای عکسها، پاسخ به سؤالات از تصاویر یا صفحات اینترنتی و... مورد ارزیابی قرار گرفت. طبق ادعای مایکروسافت، این محصول در بسیاری از تستها توانسته است تا مدلهای فعلی مورد استفاده را پشت سر بگذارد.
یکی از تستهای جالبی که Kosmos-1 توانسته است در آن عملکرد قابلقبولی از خود نشان دهد، آزمون ریون (Raven) بوده است. ماتریس پیشرونده ریون برای ارزیابی IQ براساس پیشبینی توالیهای تصویری طراحی شده و در رده آزمونهای گروهی غیرکلامی هوش قرار میگیرد که در اغلب اوقات در مراکز آموزشی استفاده میشود. هوش مصنوعی مایکروسافت توانسته است در تلاشهای خود ۲۲ الی ۲۶ درصد از سؤالات را با موفقیت پاسخ دهد؛ مقداری که اگرچه کم بهنظر میرسد، ولی از حالت پاسخ تصادفی با نرخ ۱۷ درصد، فاصله محسوسی دارد.
محصول تازه مایکروسافت در مراحل اولیه قرار دارد و پیشبینی میشود که در آینده با بهینهسازیهای بیشتر میتواند عملکرد بهتری را از خود نشان دهد. چنین مدلهای هوش مصنوعی که میتوانند از ورودیهای گوناگونی پشتیبانی کنند، پتانسیل بالایی برای استفاده بهعنوان دستیارهای مصنوعی توسط کاربران دارند. احتمال میرود که محققان مایکروسافت با گسترش ابداع خود بتوانند ویژگیهای دیگر ازجمله تکلم را هم به آن اضافه نمایند. مایکروسافت اعلام کرده است که قصد دارد Kosmos-1 را در اختیار توسعهدهندگان قرار دهد، ولی هنوز تاریخ دقیقی برای انتشار کدها اعلام نکرده است.
برای گفتگو با کاربران ثبت نام کنید یا وارد حساب کاربری خود شوید.