ویدیوی جعلی جمینای گوگل با مدل GPT-4 بهشکل واقعی بازسازی شد [تماشا کنید]
ویدیوی منتشرشده نشان میدهد کارهایی که Gemini ادعای انجام آنها را داشت، واقعاً توسط GPT-4 قابل انجام است.
پس از اینکه گوگل ویدیوی خیرهکننده نمایش عملکرد Gemini را منتشر کرد، مشخص شد که این ویدیو جعلی بوده است. حالا کاربری این ویدیو را با کمک قابلیت «ویژن» (Vision) در GPT-4 بازسازی کرده است. در این ویدیو میبینیم کارهایی که جمینای ادعای انجام آنها را داشت، توسط هوش مصنوعی OpenAI انجام میشود.
براساس گزارشی تازه، یک کاربر در یوتوب با انتشار یک ویدیو، قدرت رقیب اصلی Gemini، یعنی GPT-4 را به رخ کشید. کانال یوتوب Greg Technology ویدیویی را منتشر کرده که در آن دموی Gemini در GPT-4 بازسازی شده است. برخلاف دموی جعلی گوگل، این ویدیو در لحظه و با پرامپتهای صوتی ضبط شده است.
در این ویدیو کاربر با کمک قابلیت ویژن GPT-4، از این هوش مصنوعی میخواهد که حرکات او را تشخیص دهد. این کاربر پس از نشاندادن یک قلب با دستش، توانست با کمی تأخیر از هوش مصنوعی جواب درست را بگیرد. همچنین GPT-4 توانست نقاشی اردکی که برای جمینای به نمایش گذاشته شده بود را خیلی سریع تشخیص دهد. هوش مصنوعی OpenAI حتی قادر بود بازی سنگ، کاغذ، قیچی را شناسایی کند، ولی در پاسخدادن درنگ بیشتری نشان داد.
عملکرد مدل هوش مصنوعی GPT-4 در مقایسه با جمینای گوگل
مدل زبان بزرگ (LLM) جمینای گوگل قدرتمندترین مجموعه مدلهای هوش مصنوعی این شرکت تا به امروز است. گوگل در تلاشی برای نشاندادن تواناییهای چندوجهی مدل زبانی بزرگ خود، یک ویدیو از جمینای منتشر کرد که ظاهراً به درخواستهای صوتی کاربر سریعاً و در لحظه پاسخ میداد. در ابتدا، این دمو بسیاری را شگفتزده کرد، اما پس از آن مشخص شد که گوگل دستکاریهایی را در نمایش خروجی کار انجام داده است تا ویدیو روانتر و عملکرد این مدل هوش مصنوعی پیشرفتهتر بهنظر برسد.
با این حساب، ویدیوی کانال Greg Technology میتواند بسیار مهم تلقی شود، چرا که این کاربر با مدل هوش مصنوعی OpenAI که رقیب اصلی جمینای بهحساب میآید، این آزمایش را انجام داده است. اما برخلاف دموی گوگل، این ویدیو بسیار واقعی بهنظر میرسد.
دیدگاهها و نظرات خود را بنویسید
برای گفتگو با کاربران ثبت نام کنید یا وارد حساب کاربری خود شوید.
تا وقتی مدل Gemini Ultra یا Pro با قابلیت ویژن در دسترس عموم قرار نگیره نمیشه اون رو با GPT4V مقایسه کرد. این هم کار خاصی نکرده و فقط یک اپلیکیشن درست کرده که از دوربین عکس میگیره و صوت رو هم (احتمالا با Whisper) به متن تبدیل میکنه و اونها رو میفرسته به GPT4V و نهایتا پاسخ اون رو به یک tts ابتدایی با صدای رباتیک میده. گوگل بدبخت هم خودش گفت یک همچین کاری رو برای درست کردن دموهاش انجام داده فقط زمانهای انتظار برای پاسخگویی رو حذف کرده البته بهتر بود یک دموی لایو هم نشون میداد که عامه مردم به اشتباه نیوفتند.