هوش مصنوعی Stable Cascade با عملکرد شگفت‌انگیز در تبدیل متن به عکس رونمایی شد

پنج‌شنبه ۲۶ بهمن ۱۴۰۲ - ۲۰:۲۰
مطالعه 3 دقیقه
چند تصویر تولید شده با ابزار هوش مصنوعی stable cascade
هوش مصنوعی Stable Cascade ویژگی‌های جدیدی در تبدیل متن به عکس و ویرایش تصاویر ارائه می‌کند.
تبلیغات

شرکت Stability AI محصول جدید خود موسوم‌به Stable Cascade را که سرویسی برای ساخت عکس با هوش مصنوعی است رونمایی کرده و ادعا می‌کند که سریع‌تر و قدرتمندتر از Stable Diffusion ظاهر می‌شود.

Stable Cascade قادر است با دریافت درخواست متنی کاربر، چندین تصویر را در حالت‌های متفاوتی تولید کند. این سرویس همچنین می‌تواند وضوح یک عکس آپلودشده را تا دو برابر افزایش دهد؛ به‌عنوان مثال وضوح ۱۰۲۴×۱۰۲۴ پیکسل را به ۲۰۴۸×۲۰۴۸ پیکسل می‌رساند.

افزایش وضوح عکس در مدل stable cascade - تصاویری از یک پیرمرد و دو گربه
افزایش دو برابری وضوح عکس با استفاده از مدل Stable Cascade

ابزار هوش مصنوعی جدید Stability AI در بخش ویرایش تصویر، می‌تواند بخش‌های خراب‌شده‌ای از تصویر را ترمیم یا قسمت حذف‌شده‌ای از آن را پر کند.

قابلیت Canny Edge به ابزار Stable Cascade اضافه شده است که کاربران را قادر می‌سازد از روی یک طرح اولیه یا قسمتی از یک تصویر، عکس جدید و کامل‌شده‌ای را ایجاد کنند.

تصاویر ساخته شده از متن که پنگوئن را نشان می دهد که کتاب می خواند و قهوه می نوشد
دستور متنی «عکس سینمایی از یک پنگوئن انسان‌نما که در یک کافه نشسته است و کتاب می‌خواند و قهوه می‌نوشد»

مدل هوش مصنوعی جدید Stable Cascade برای محققان در گیت‌هاب قابل دسترسی است، اما هنوز برای استفاده‌ی تجاری منتشر نشده است. این مدل امکانات بیشتری را از مدل‌های مشابهی نظیر Imagen گوگل یا ابزار Imagine with Meta متا به‌ارمغان می‌آورد.

ویژگی Canny Edge در مدل هوش مصنوعی stable cascade - تصویر فانوس دریایی
ویژگی Canny Edge برای ایجاد تصویر از روی یک طرح

برخلاف Stable Diffusion، ابزار هوش مصنوعی Stable Cascade حاصل یک مدل زبانی بزرگ نیست، بلکه از سه مدل مختلف قدرت‌ گرفته که براساس معماری Würstchen توسعه پیدا کرده‌اند.

در مرحله‌ی اول، مدل Stage C، درخواست متنی را به قطعات کوچکی تقسیم می‌کند، سپس به Stage A و Stage B منتقل می‌شود تا آن را رمزگشایی کنند.

مراحل سه گانه در ابزار هوش مصنوعی stable cascade
مراحل سه گانه در مدل هوش مصنوعی Stable Cascade

Stage C و Stage B هر یک با دو مدل مختلف منتشر خواهند شد که شامل مدل‌هایی با یک میلیارد و ۳٫۶ میلیارد پارامتر برای Stage C و ۷۰۰ میلیون و ۱٫۵ میلیارد پارامتر برای Stage B می‌شوند. سازنده توصیه می‌کند که از مدل‌های با پارامتر بیشتر استفاده شود تا خروجی با کیفیت‌تری به‌دست آید.

به لطف رویکرد ماژولار Stable Cascade، نیاز به حافظه‌ی گرافیکی می‌تواند به حدود ۲۰ گیگابایت محدود شود و درصورت استفاده از مدل‌های کوچک‌تر این مقدار کمتر می‌شود، اما بر کیفیت نتیجه نیز تأثیر خواهد گذاشت.

تقسیم درخواست به قطعات کوچک‌تر باعث فشرده‌سازی آن می‌شود تا نیاز کمتری به رم و گرافیک داشته باشد و سریع‌تر و با کیفیت بالاتری اجرا شود. در نمونه‌ای از درخواست ارائه‌ شده به مدل، زمان ایجاد تصویر حدود ۱۰ ثانیه طول کشید که از زمان ۲۲ ثانیه در مدل Stable Diffusion سریع‌تر بود.

مقاله رو دوست داشتی؟
نظرت چیه؟
داغ‌ترین مطالب روز
تبلیغات

نظرات