هوش مصنوعی GauGAN2 انویدیا از کلمات، تصاویر دقیق و گاهی دلهره‌آور تولید می‌کند

سه‌شنبه ۲ آذر ۱۴۰۰ - ۱۸:۱۵

مطالعه 4 دقیقه

پروژه‌ی GauGAN2 انویدیا به‌کمک یادگیری عمیق می‌تواند از کلمات و عبارت‌های تایپ‌شده، تصاویری خلق کند که گاه بسیار شبیه به عبارت تایپ‌شده و گاه هنری و گاه بسیار دلهره‌آور هستند.

تبلیغات

بخش تحقیقاتی انویدیا به‌تازگی جدیدترین نسخه‌ی پروژه‌ی هوش مصنوعی GauGAN را رونمایی کرده که مبتنی‌بر یادگیری عمیق است و حالا به قابلیت تبدیل متن به تصویر مجهز شده است. در نسخه‌‌ی اولیه‌ی این پروژه، از تبدیل متن به تصویر خبری نبود و لازم بود طرح کلی از سوژه کشیده شود تا براساس این طرح، تصویر واقعی مشابه به کمک هوش مصنوعی تولید شود.

حالا GauGAN2 به کاربر اجازه می‌دهد با تایپ عباراتی مثل «غروب آفتاب در ساحل» و اضافه‌کردن جزئیات دیگری به آن، مثل «ساحل سنگی» یا تغییر «غروب» به ساعات دیگری در روز یا حتی تعیین وضعیت‌‌ آب‌و‌هوا، به تصویر واقعی و تقریبا مشابه با آنچه تایپ کرده، برسد.

تصویر تولید‌شده از عبارت «butterflies autumn leaves» در الگوریتم GauGAN2 انویدیا

شما می‌توانید نحوه‌ی استفاده از این پلتفرم را در ویدئو زیر تماشا کنید یا به خود صفحه‌ی مربوط به پروژه‌ی GauGAN2 بروید و خودتان با این پروژه کار کنید. دقت کنید پس از قبول‌کردن شرایط و ضوابط در انتهای صفحه، در قسمت Input utilization، حتما تیک text را بزنید و برای نتیجه‌ی دقیق‌تر، تیک segmentation را بردارید. سپس، عبارت مدنظرتان را در نوار Input text تایپ و روی دکمه‌ی جهت راست (render output) کلیک کنید. حواستان باشد از فشردن دکمه‌ی اینتر خودداری کنید؛ چون نتایج جست‌وجو را ریست می‌کند.

تماشا در یوتیوب

جدیدترین نسخه‌ی پروژه GauGAN اولین مدل مبتنی‌بر هوش مصنوعی است که از چندین ورودی ازجمله متن، طراحی، تقسیم‌بندی و تصویر به‌طور هم‌زمان در یک شبکه‌ی مولد رقابتی واحد پشتیبانی می‌کند. به‌همین‌دلیل، اگر در بخش Input utilization، تیک گزینه sketch را بزنید و در بوم سمت چپ طرحی را بکشید، هوش مصنوعی طرح شما را به تصویر نشان‌داده‌شده در سمت راست اضافه می‌کند و گاه اثر هنری جالبی خلق می‌کند.

با‌این‌حال، این پروژه هنوز در فاز بتا است و یادگیری عمیق آن به‌اندازه‌ی کافی پیشرفته نیست تا برای هر عبارت تایپ‌شده، تصویر کاملا مرتبط ایجاد کند. برای مثال، با تایپ عبارت «people walking»، تصویر به‌دست‌آمده نه‌تنها شباهتی به افراد در حال قدم‌زدن نداشت؛ بلکه کلاژ تکه‌هایی از بدن حیوانات تصویر دلهره‌آوری ایجاد کرد.

تصویر تولیدشده از عبارت «people walking» در الگوریتم GauGAN2 انویدیا

برای سرگرمی، می‌توانید عبارات بی‌معنی یا رندومی را نیز در این صفحه جست‌وجو کنید تا الگوریتم انویدیا تصاویر عجیب و دلهره‌آور بیشتری به شما نشان دهد. برای نمونه، با تایپ «zoomit is great»، تصویر موهومی زیر به‌دست آمد:‌

تصویر تولید‌شده از عبارت «zoomit is great» در الگوریتم GauGAN2 انویدیا

GauGAN الگوریتمی است که غول دنیای پردازنده‌های گرافیکی توسعه داده تا قدرت هوش مصنوعی را به‌نمایش بگذارد. اولین نسخه‌ی GauGAN اوایل سال ۲۰۱۹ به‌عنوان پلتفرمی برای طراحی به‌کمک هوش مصنوعی ارائه شد که به‌واسطه‌ی آن، طرح کشیده‌شده‌ی کاربر به عکس واقعی مشابه با طرح تبدیل می‌شد.

اصطلاح GAN در نام این پروژه به کلاس گسترده‌ای از برنامه‌های شبکه‌ی عصبی موسوم به شبکه‌های مولد رقابتی یا زایای دشمن‌گونه اشاره می‌کند که ایان گودفلو و همکارانش در سال ۲۰۱۴ معرفی کردند. در این کلاس، دو شبکه‌ی عصبی روبه‌روی یکدیگر قرار می‌گیرند؛ به‌طوری‌که یک شبکه روی خروجی به‌طور پیوسته کار و آن را اصلاح می‌کند تا زمانی که شبکه‌ی دوم صحت خروجی را تأیید کند. ماهیت رقابتی بین این دو شبکه دلیل «دشمن‌گونه» نامیدن آن‌ها است.

تصویر مفهومی تولیدشده از عبارت «بودن یا نبودن، مسئله این است» در الگوریتم GauGAN2 انویدیا

انویدیا در گسترش شبکه‌های مولد رقابتی اقدامات بزرگی انجام داده است که معرفی پروژه‌ی Style-GAN در سال ۲۰۱۸ را شامل می‌شود. Style-GAN می‌تواند تصاویر جعلی، اما بسیار واقع‌گرایانه از افراد تولید کند.

مقاله‌های مرتبط:

انویدیا چگونه در سه هفته، هفتمین رایانه سریع دنیا را تولید کرد؟

انویدیا به توسعه و بهبود GauGAN ادامه خواهد داد و پروژه‌های مبتنی‌بر هوش مصنوعی دیگری نیز در دست ساخت دارد. الگوریتم GauGAN2 با ۱۰ میلیون تصویر منظره به‌کمک ابررایانه سلین انویدیا، یکی از ده اَبَرکامپیوتر پرقدرت جهان‌، آموزش دیده است.

مقاله رو دوست داشتی؟

نظرت چیه؟

مرجان شیخی

داغ‌ترین مطالب روز

نظرات