رودست به گوگل؛ این ویدیو ثابت میکند ChatGPT از Gemini پیشرفتهتر است [تماشا کنید]
ویدئویی در یوتیوب منتشر شده که دموی ساختگی از چتبات هوش مصنوعی جمنای گوگل را بهصورت واقعی با ChatGPT انجام داده است.
چندی پیش گوگل ویدئویی را منتشر کرد که نشان میداد جمنای میتواند تصاویری را که در لحظه میبیند با دقت بالایی درک کند و درخواستهای صوتی را بهطور همزمان پاسخ دهد.
زمان زیادی نگذشته بود که ساختگی بودن ویدئو مشخص شد. حقیقت این بود که جمنای به درخواستهای متنی جواب میداد و عکسها باید آپلود میشدند و قابلیت درک و پاسخگویی همزمان وجود نداشته است.
کانال یوتیوب Greg Technology در ویدئوی کوتاه خود همین کار را بهصورت واقعی با مدل هوش مصنوعی GPT-4 with Vision (یا GPT-4V) تکرار کرده است.
گِرِگ ابتدا به مصنوعی بودن ویدئوی گوگل اشاره میکند و سپس حالتهایی را با دستش نشان میدهد و از ChatGPT میخواهد آنها را توصیف کند؛ در آخر هم نقاشی اردک را به او نشان میدهد. پاسخ GPT-4V به اکثر درخواستها درست است.
برای درک بیشتر این ویدئو، باید به ویدیوی منتشرشده توسط گوگل با عنوان آشنایی با Gemini مراجعه کرد. سوندار پیچای، مدیرعامل گوگل در پست خود گفته بود: «بهترین راه برای درک قابلیتهای شگفتانگیز جمنای این است که آنها را در عمل ببینید.»
مسئلهی اصلیای که باعث ناامیدی بینندگان شد، این بود که ویدیوی ارائهشده در زمان واقعی ضبط نشده بود و بهجای آن، جمنای به یک سری تصاویر ثابت پاسخ داده بود. علاوهبراین، تمام تعامل صوتی بعداً در فرایند تدوین ویدیو، صداگذاری شده بود و جمنای فقط به درخواستهای متنی جواب داده بود.
GPT-4 در هفتههای اخیر بهروزرسانی مهمی را دریافت کرده که مربوط به قابلیت دیداری و صوتی آن است. گِرِگ فکر کرد با GPT-4V، میتواند دموی هوش مصنوعی جمنای را بازسازی کند که همین کار را در حین ویدئو با حالتهای دست خود نشان داد.
یکی از چیزهایی که در این ویدئو میبینیم و میشنویم، فاصلهی بین درخواست صوتی کاربر و پاسخ صوتی GPT-4V است. ویدئوی گوگل با این توضیح منتشر شد که «تأخیر کاهش یافته و پاسخهای جمنای سریع و کوتاه شدهاند»، اما مشخص شد که کاهش تأخیرها نتیجهی یک ویدئوی ساختگی بوده است.