هوش مصنوعی Imagen 2 گوگل از راه رسید؛ ساخت و ویرایش عکس با دستور متنی
گوگل در بیانیهای مطبوعاتی دومین نسخه از هوش مصنوعی Imagen را معرفی کرد. این مدل هوش مصنوعی با قابلیت ایجاد و ویرایش تصاویر از روی متن، برای مشتریان گوگل کلاد که از Vertex AI استفاده میکنند و دسترسی آنها تأیید شده است، بهطور گسترده دردسترس است.
گوگل دادههایی را که برای آموزش مدل جدید استفاده کرده، فاش نکرده است و به سازندگانی که ممکن است ناخواسته در مجموعهی دادهها مشارکت داشته باشند، فرصتی برای انصراف یا درخواست غرامت ارائه نمیدهد.
مدل هوش مصنوعی گوگل با نام Imagen 2 که پیشنمایش آن ماه می (اردیبهشت و خرداد) در کنفرانس I/O معرفی شد، توسط کسبوکار DeepMind توسعه یافته است. این شرکت بهطرز عجیبی تا صبح امروز از به اشتراکگذاری نمونههای تصاویر خودداری میکرد.
گوگل ادعا میکند که این مدل در مقایسه با نسل اول Imagen، از نظر کیفیت تصویر بهطور قابلتوجهی بهبود یافته است. همچنین گوگل ویژگیهای بهروزشدهی هوش مصنوعی خود را معرفی کرده که شامل قابلیت جدید ارائهی متن و لوگو میشود.
توماس کوریان، مدیرعامل گوگل کلاد، در یک کنفرانس مطبوعاتی گفت: «اگر میخواهید تصاویری که با متن پوشانده شده را مانند تصاویر تبلیغاتی ایجاد کنید، این امکان برای شما فراهم شده است.»
با اضافهشدن قابلیت جدید تولید متن و لوگو، Imagen با دیگر مدلهای تولید تصویر پیشرو مانند DALL-E 3 و Titan Image Generator رقابت میکند. با این حال، دو تفاوت احتمالی وجود دارد؛ Imagen 2 میتواند متن را به چندین زبان (بهویژه چینی، هندی، ژاپنی، کرهای، پرتغالی، انگلیسی و اسپانیایی) تولید کند و همچنین لوگو را روی تصاویر موجود قرار دهد.
رئیس محصولات رسانهای مولد گوگل توضیح میدهد: «Imagen 2 میتواند نشانها، علائم و لوگوهای انتزاعی تولید کند و این توانایی را دارد که این لوگوها را روی محصولات، لباسها، کارتهای ویزیت و سایر سطوح قرار دهد.»
به لطف تکنیکهای جدید یادگیری و مدلسازی، Imagen 2 میتواند پرسشهای توصیفیتر و طولانیتر را درک کند و به سؤالات مربوط به عناصر تصویر، پاسخهای تفصیلی ارائه دهد. به گفتهی گوگل، این تکنیکها درک چند زبانهی Imagen 2 را بهبود میبخشند و به مدل اجازه میدهند درخواستی را با یک زبان، به خروجی در زبان دیگر ترجمه کند.
هوش مصنوعی جدید گوگل از SynthID که توسط دیپمایند توسعه یافته است، برای اعمال واترمارکهای نامرئی بر روی تصاویر استفاده میکند. البته، تشخیص واترمارکها که از دستکاریهای رایج تصویر مانند فشردهسازی، فیلترها و تنظیمات رنگ مصون هستند به ابزاری نیاز دارد که توسط گوگل ارائه شده است و دردسترس همه قرار ندارد.
گوگل دادههای مورد استفاده برای آموزش Imagen 2 را فاش نکرده است و این سؤال حقوقی همچنان پابرجا است که آیا ارائهدهندگان هوش مصنوعی مانند گوگل میتوانند مدلی را براساس دادههای در دسترس عموم (یا حتی دارای حق کپیرایت) آموزش دهند و سپس آن مدل را تجاریسازی کنند؟
دعاوی در این زمینه در دادگاه در جریان است و ارائهدهندگان استدلال میکنند که تحت حمایت قانون حق تکثیر و سیاست استفاده منصفانه هستند.
در حال حاضر، گوگل با سکوت در مورد این موضوع، روشی معکوس نسبت به نسل اول Imagen پیش گرفته است. در معرفی نسخهی اول این مدل، شرکت فاش کرد که از مجموعهدادهی عمومی LAION برای آموزش مدل استفاده کرده است. LAION بهعنوان سازمانی با محتوای مشکلساز (از جمله تصاویر پزشکی خصوصی، آثار هنری دارای حق نسخهبرداری، و تصاویر جنسی فتوشاپشدهی افراد مشهور) شناخته شده است.
گوگل در عوض یک سیاست جبران خسارت را ارائه میکند که از مشتریان واجد شرایط Vertex AI دربرابر ادعاهای حق نسخهبرداری آنان محافظت میکند.
این واقعیت که یک مدل هوش مصنوعی، از نمونههای آموزشی برای تولید نسخههای آینهای استفاده میکند برای مشتریان و توسعهدهندگان سازمانی نگرانی ایجاد میکند. تحقیقات نشان میدهد که نسل اول Imagen از این پدیده مصون نبوده و عکسهای قابل شناسایی از افراد واقعی، آثار دارای حق چاپ توسط هنرمندان و موارد دیگر را در صورت درخواست به روشهای خاص، ارائه داده است.
در نظرسنجی اخیر آکرولینکس از ۵۰۰ شرکت فورچون، تقریباً یکسوم گفتند که مالکیت معنوی بزرگترین نگرانی آنها در مورد استفاده از هوش مصنوعی مولد است.