گوگل Veo و Imagen 3 را رونمایی کرد؛ تولید ویدئو و عکس با هوش مصنوعی
گوگل در مراسم Google I/O امسال مدلهای هوش مصنوعی تولید ویدئو و عکس جدید خود را برای رقابت با Sora و Dall-E 3 اوپنایآی رونمایی کرد. مدل Veo ویدیوهای 1080p تولید میکند و Imagen 3، نسخهی بهبودیافتهی پلتفرم تبدیل متن به تصویر گوگل است.
گوگل مدعی است Veo با «درک پیشرفتهای از زبان طبیعی و مفاهیم تصویری» میتواند ویدئوهای در ذهنتان را خلق کند. ویدئوهای تولیدشده با هوش مصنوعی Veo میتوانند «بیشتر از یک دقیقه» باشند و این هوش مصنوعی تکنیکهای سینمایی مختلف مثل مفهوم تایملپس را درک میکند.
بهگفتهی گوگل، Veo میتواند قوانین فیزیک دنیای واقعی را بهتر از مدلهای قبلی شبیهسازی کند و رندر تصاویر باکیفیت را با عملکرد بهبودیافتهای بهنمایش بگذارد.
ویدئوهای ساخته شده با Veo؛ کیفیت بهدلیل فشردهکردن فایل کم شده است
مدل Veo بر بستر ابزار VideoFX گوگل از امروز دردسترس برخی از تولیدکنندگان محتوا قرار خواهد گرفت و قرار است «در آینده» به Shorts یوتیوب و محصولات دیگر اضافه شود تا کاربران عادی نیز بتوانند از این قابلیت استفاده کنند.
گوگل میگوید که Imagen 3 «باکیفیتترین» مدل تبدیل متن به تصویر این شرکت است که از سطح شگفتانگیزی از جزئیات برای تولید تصاویر واقعگرایانه بهره میبرد. بهگفتهی گوگل، Imagen 3 بهتر از قبل متن را درک میکند و هوشمندانهتر ازپس جزئیات متنهای ورودیِ طولانی برمیآید؛ هرچند برای قضاوت باید منتظر مقایسهی عملکرد مدل گوگل با رقیب قدرش، Dall-E 3، ماند.
گوگل درکنار این دو مدل، ابزار جدیدی به نام Music AI Sandbox را برای تولید آهنگ و بیت بهکمک هوش مصنوعی معرفی کرد. بهگفتهی گوگل، این ابزار بهکمک آهنگسازها و ترانهسراها توسعه یافته است. فعلاً جزئیات بیشتری از این ابزار دردسترس نیست؛ اما دموهایی که از عملکرد آن در رویداد بهنمایش گذاشته شد، جذاب بهنظر میرسیدند.