هوش مصنوعی Imagen 2 گوگل از راه رسید؛ ساخت و ویرایش عکس با دستور متنی

پنج‌شنبه 23 آذر 1402 - 09:40

مطالعه 4 دقیقه

هوش مصنوعی Imagen 2 گوگل با بهبود کیفیت و قابلیت اضافه‌کردن متن و لوگو به تصاویر، معرفی شد.

تبلیغات

گوگل در بیانیه‌ای مطبوعاتی دومین نسخه از هوش مصنوعی Imagen را معرفی کرد. این مدل هوش مصنوعی‌‌ با قابلیت ایجاد و ویرایش تصاویر از روی متن، برای مشتریان گوگل کلاد که از Vertex AI استفاده می‌کنند و دسترسی آن‌ها تأیید شده است، به‌طور گسترده دردسترس است.

گوگل داده‌هایی را که برای آموزش مدل جدید استفاده کرده، فاش نکرده است و به سازندگانی که ممکن است ناخواسته در مجموعه‌‌ی داده‌ها مشارکت داشته باشند، فرصتی برای انصراف یا درخواست غرامت ارائه نمی‌دهد.

مدل هوش مصنوعی گوگل با نام Imagen 2 که پیش‌نمایش آن ماه می (اردیبهشت و خرداد) در کنفرانس I/O معرفی شد، توسط کسب‌و‌کار DeepMind توسعه یافته است. این شرکت به‌طرز عجیبی تا صبح امروز از به اشتراک‌گذاری نمونه‌های تصاویر خودداری می‌کرد.

گوگل ادعا می‌کند که این مدل در مقایسه با نسل اول Imagen، از نظر کیفیت تصویر به‌طور قابل‌توجهی بهبود یافته است. همچنین گوگل ویژگی‌های به‌روزشده‌ی هوش مصنوعی خود را معرفی کرده که شامل قابلیت‌‌ جدید ارائه‌ی متن و لوگو می‌شود.

توماس کوریان، مدیرعامل گوگل کلاد، در یک کنفرانس مطبوعاتی گفت: «اگر می‌خواهید تصاویری که با متن پوشانده شده را مانند تصاویر تبلیغاتی ایجاد کنید، این امکان برای شما فراهم شده است.»

با اضافه‌شدن قابلیت جدید تولید متن و لوگو، Imagen با دیگر مدل‌های تولید تصویر پیشرو مانند DALL-E 3 و Titan Image Generator رقابت می‌کند. با این حال، دو تفاوت احتمالی وجود دارد؛ Imagen 2 می‌تواند متن را به چندین زبان (به‌ویژه چینی، هندی، ژاپنی، کره‌ای، پرتغالی، انگلیسی و اسپانیایی) تولید کند و همچنین لوگو را روی تصاویر موجود قرار دهد.

رئیس محصولات رسانه‌ای مولد گوگل توضیح می‌دهد: «Imagen 2 می‌تواند نشان‌ها، علائم و لوگوهای انتزاعی تولید کند و این توانایی را دارد که این لوگوها را روی محصولات، لباس‌ها، کارت‌های ویزیت و سایر سطوح قرار دهد.»

به لطف تکنیک‌های جدید یادگیری و مدل‌سازی، Imagen 2 می‌تواند پرسش‌های توصیفی‌تر و طولانی‌تر را درک کند و به سؤالات مربوط به عناصر تصویر، پاسخ‌های تفصیلی ارائه دهد. به گفته‌ی گوگل، این تکنیک‌ها درک چند زبانه‌ی Imagen 2 را بهبود می‌بخشند و به مدل اجازه می‌دهند درخواستی را با یک زبان، به خروجی در زبان دیگر ترجمه کند.

هوش مصنوعی جدید گوگل از SynthID که توسط دیپ‌مایند توسعه یافته است، برای اعمال واترمارک‌های نامرئی بر روی تصاویر استفاده می‌کند. البته، تشخیص واترمارک‌ها که از دستکاری‌های رایج تصویر مانند فشرده‌سازی، فیلترها و تنظیمات رنگ مصون هستند به ابزاری نیاز دارد که توسط گوگل ارائه شده است و دردسترس همه قرار ندارد.

گوگل داده‌های مورد استفاده برای آموزش Imagen 2 را فاش نکرده است و این سؤال حقوقی همچنان پابرجا است که آیا ارائه‌دهندگان هوش مصنوعی مانند گوگل می‌توانند مدلی را براساس داده‌های در دسترس عموم (یا حتی دارای حق کپی‌رایت) آموزش دهند و سپس آن مدل را تجاری‌سازی کنند؟

دعاوی در این زمینه در دادگاه در جریان است و ارائه‌دهندگان استدلال می‌کنند که تحت حمایت قانون حق تکثیر و سیاست استفاده منصفانه هستند.

در حال حاضر، گوگل با سکوت در مورد این موضوع، روشی معکوس نسبت به نسل اول Imagen پیش گرفته است. در معرفی نسخه‌ی اول این مدل، شرکت فاش کرد که از مجموعه‌داده‌ی عمومی LAION برای آموزش مدل استفاده کرده است. LAION به‌عنوان سازمانی با محتوای مشکل‌ساز (از جمله تصاویر پزشکی خصوصی، آثار هنری دارای حق نسخه‌برداری، و تصاویر جنسی فتوشاپ‌شده‌ی افراد مشهور) شناخته شده است.

گوگل در عوض یک سیاست جبران خسارت را ارائه می‌کند که از مشتریان واجد شرایط Vertex AI دربرابر ادعاهای حق نسخه‌برداری آنان محافظت می‌کند.

مقاله‌های مرتبط

این واقعیت که یک مدل هوش مصنوعی، از نمونه‌های آموزشی برای تولید نسخه‌های آینه‌ای استفاده می‌کند برای مشتریان و توسعه‌دهندگان سازمانی نگرانی ایجاد می‌کند. تحقیقات نشان می‌دهد که نسل اول Imagen از این پدیده مصون نبوده و عکس‌های قابل شناسایی از افراد واقعی، آثار دارای حق چاپ توسط هنرمندان و موارد دیگر را در صورت درخواست به روش‌های خاص، ارائه داده است.

در نظرسنجی اخیر آکرولینکس از ۵۰۰ شرکت فورچون، تقریباً یک‌سوم گفتند که مالکیت معنوی بزرگترین نگرانی آن‌ها در مورد استفاده از هوش مصنوعی مولد است.

مقاله رو دوست داشتی؟

نظرت چیه؟

مبینا جوکار

تبلیغات

نظرات