موفقیت هوش مصنوعی سامسونگ در خلق تصاویر متحرک تنها با یک عکس

جمعه ۳ خرداد ۱۳۹۸ - ۱۹:۰۳
مطالعه 3 دقیقه
در مدلی جدید با استفاده از یادگیری ماشین، لابراتور هوش مصنوعی سامسونگ تنها با در اختیار داشتن یک عکس یا نقاشی از شخص می‌تواند تصویر متحرکی بسیار زنده خلق کند.
تبلیغات

محققان حوزه یادگیری ماشین موفق به طراحی سیستمی شدند که می‌تواند تصویر متحرک شبیه‎سازی‌شده‌ی بسیار واقعی را تنها با یک فریم از چهره شخص و حتی یک نقاشی‌ بازسازی کند. این سیستم هنوز کامل نشده و در حال آزمایش است، اما زمانی‌که به سیستمی تمام عیار تبدیل شود، مانند دستاوردهای هوش مصنوعی، بسیار جذاب و شگفت‌انگیز خواهد بود.

این مدل در مقاله‌ای منتشر شده توسط مرکز تحقیقات هوش مصنوعی سامسونگ (Samsung AI Center) به‌ثبت رسیده است. امکان دسترسی به این مقاله در آرشیو Arxiv وجود دارد. این مدل جدید از روشی برای بازسازی چهره با دو الگوی چهره منبع و چهره هدف استفاده می‌کند. تمام نشانه‌های صورت، هر کدام از اجزای صورت که به هنگام صحبت کردن به‎کار گرفته می‌شود در چهره منبع (source face) ذخیره می‌شود. سپس این اطلاعات به‌دست آمده از صورت در چهره هدف (target face) اعمال می‌شود. این کار باعث می‌شود تا شبیه‌سازی صورت هدف از روی صورت منبع صورت گیرد یعنی چهره هدف همان کاری را انجام دهد که چهره منبع انجام می‌دهد.

این مدل به‌نوبه خود جدید نیست، بلکه بخشی از موضوع تصویرسازی مصنوعی است که دنیای هوش مصنوعی در حال حاضر با آن روبه‌رو است. موضوع بسیار جذابی که اخیرا در رویداد رباتیک و هوش مصنوعی دانشگاه برکلی مورد بحث قرار گرفت. امکان شبیه‌سازی چهره به‌صورت ویدئویی ازطریق الگو قرار دادن چهره‌ای دیگر وجود دارد. به‌طوری که چهره ویدئویی می‌تواند حالت حرف زدن یا نگاه کردن شخصی را شبیه‌سازی کند. اما بسیاری از این مدل‌ها، نیازمند اطلاعات درخورتوجهی مانند، یک تا دو دقیقه از تجزیه و تحلیل دقیق ویدئویی هستند.

در مقاله جدیدی که از سوی پژوهشگران Samsung در مرکز مسکو منتشر شده است؛ آن‌ها موفق به ساخت ویدئویی، تنها با استفاده از یک تصویر فرد شدند که می‌توانست صورتش را بچرخاند، صحبت کند و عبارات عادی را بیان کند. اگرچه این ویدئو متقاعدکننده به‌نظر می‌رسید اما به دور از نقص نبود.

ساخت این ویدئو با استفاده از فرایند شناسایی نشانه‌های صورت با به‌کارگیری داده‌های بسیار زیاد انجام شد. این مدل به‌دنبال بخشی از اجزای چهره هدف بود که با چهره منبع مطابقت پیدا می‌کرد. در این مدل هرچه داده‌ها بیشتر باشد، نتیجه بهتر و کامل‌تری حاصل می‌شود. این درحالی است که این داده‌ها فقط باید از یک تصویر به دست آمده باشند که به آن یادگیری تک‌شات (single-shot learning) گفته می‌شود.  

با استفاده از این مدل می‌توان با داشتن تنها یک تصویر از انیشتین، مریلین مونرو یا حتی مونا لیزا تصاویر متحرکی از آن‌ها ساخت که گویا صحبت می‌کنند و صورتشان را مانند یک انسان واقعی حرکت می‌دهند.

تصویر متحرک مونالیزا

برای نمونه، در تصویری که مشاهده می‌کنید مونا لیزا با سه چهره منبع مختلف به‌صورت انیمیشن شبیه‌سازی شده است که نتایج مختلفی در ساختار صورت و رفتار آن قابل مشاهده است.

همچنین، این مدل از فناوری Generative Adversarial Network استفاده می‌کند. این فناوری با قرار دادن دو مدل دربرابر یکدیگر، تلاش بر فریب دیگری دارد تا بتواند بیننده را متقاعد کند که آنچه ایجاد شده واقعی است. این بدان معنا است که نتایج حاصل شده با سطح مشخصی از واقع‌گرایی از سوی سازندگان این مدل تعیین شده است. به‌طوری که در مدل discriminator با قطعیت ۹۰ درصد گفته می‌شود که خروجی، تصویر یک انسان واقعی است.

در نمونه‌های دیگری که از سوی پژوهشگران ارائه شد، کیفیت و وضوح چهره‌ی شبیه‌سازی شده‌ی درحال صحبت کاملا متفاوت بود. برخی تلاش کردند تا تصویر شخصی را از یک برنامه خبری تکثیر کنند و در آن حتی زیرنویس اخبار شبکه را در زیر تصویر با کمک اطلاعات ساختگی بازسازی کردند و جزئیات تصویری دیگر را نیز در آن گنجاندند.

همان‌طور که گفته شد، این مدل جدید هنوز کامل نیست. این مدل تنها می‌تواند صورت و گردن به بالا را به‌صورت ویدئویی شبیه‌سازی کند. پس فعلا  انتظار رقصیدن مونا لیزا یا دست زدن او را نداشته باشید. 

مقاله رو دوست داشتی؟
نظرت چیه؟
داغ‌ترین مطالب روز
تبلیغات

نظرات