گوگل در واکنش به GPT-4o، قابلیت جدید درک بصری جمینای را نشان داد [تماشا کنید]
گوگل در ویدیویی جدید نشان میدهد که هوش مصنوعی جمینای قادر است آنچه را که در قاب تصویر وجود دارد، بهصورت لحظهای تشخیص دهد.
گوگل چند ساعت قبل از کنفرانس توسعهدهندگان I/O خود، یک قابلیت جدید و جذاب را برای جمینای تبلیغ کرد. این شرکت ویدیوی کوتاهی را منتشر کرد که یک ویژگی جدید هوش مصنوعی را نشان میدهد. جمینای با این ویژگی قادر است آنچه را که در قاب تصویر وجود دارد، بهصورت لحظهای تشخیص دهد. OpenAI نیز دیروز از مدل هوش مصنوعی GPT-4o خود رونمایی کرد که قابلیت مشابهی دارد.
گوگل در شبکه اجتماعی ایکس ویدیویی را منتشر کرده است که در آن شخصی دوربین گوشی پیکسل خود را باز کرده است و کلمه I/O را نیز روی استیج میبینیم. او از جمینای میپرسد: «فکر میکنی اینجا چه خبر است؟» و هوش مصنوعی نیز پاسخ میدهد: «بهنظر میرسد که چند نفر دارند برای یک رویداد بزرگ، شاید یک کنفرانس یا ارائه، آماده میشوند.»
گوگل به رقابت با ChatGPT-4o میرود
OpenAI در ویدیوی رونمایی از مدل ChatGPT-4o نیز به قابلیت درک تصویر و صدا بهصورت لحظهای پرداخت. در ویدیوی این شرکت دیدیم که ChatGPT-4o میتواند با کمترین تأخیر تصویر و صدا را تشخیص دهد و بگوید که ظاهراً برای یک رونمایی آماده شدهاید. اکنون بهنظر میرسد ویدیو گوگل نیز در جواب همین قابلیت هوش مصنوعی OpenAI باشد.
دقیقاً مشخص نیست که ویژگی جدید گوگل چیست، اگرچه شباهتهایی به لنز گوگل یا جستجوی مبتنی بر دوربین این شرکت دارد. بااینحال، بهنظر میرسد این هوش مصنوعی بهصورت لحظهای کار میکند و به دستورات صوتی همانند هوش مصنوعی چندوجهی در عینک هوشمند متا پاسخ میدهد. همچنین اینکه این قابلیت در این ویدیو در گوشی پیکسل نشان داده میشود نیز جالب توجه است، زیرا گوگل اغلب ویژگیهای جدید هوش مصنوعی را ابتدا در سری پیکسل خود عرضه میکند.
اگرچه انتشار چنین ویدیویی درست چند ساعت قبل از کنفرانس I/O کمی غیرمعمول است، اما احتمال دارد گوگل در واکنش به رونمایی از قابلیتهای مدل GPT-4o این ویدیو را ساخته باشد.
کنفرانس I/O گوگل قرار است امروز (25 اردیبهشت) در ساعت 20:30 به وقت ایران برگزار شود.
برای گفتگو با کاربران ثبت نام کنید یا وارد حساب کاربری خود شوید.