موفقیت هوش مصنوعی سامسونگ در خلق تصاویر متحرک تنها با یک عکس
محققان حوزه یادگیری ماشین موفق به طراحی سیستمی شدند که میتواند تصویر متحرک شبیهسازیشدهی بسیار واقعی را تنها با یک فریم از چهره شخص و حتی یک نقاشی بازسازی کند. این سیستم هنوز کامل نشده و در حال آزمایش است، اما زمانیکه به سیستمی تمام عیار تبدیل شود، مانند دستاوردهای هوش مصنوعی، بسیار جذاب و شگفتانگیز خواهد بود.
این مدل در مقالهای منتشر شده توسط مرکز تحقیقات هوش مصنوعی سامسونگ (Samsung AI Center) بهثبت رسیده است. امکان دسترسی به این مقاله در آرشیو Arxiv وجود دارد. این مدل جدید از روشی برای بازسازی چهره با دو الگوی چهره منبع و چهره هدف استفاده میکند. تمام نشانههای صورت، هر کدام از اجزای صورت که به هنگام صحبت کردن بهکار گرفته میشود در چهره منبع (source face) ذخیره میشود. سپس این اطلاعات بهدست آمده از صورت در چهره هدف (target face) اعمال میشود. این کار باعث میشود تا شبیهسازی صورت هدف از روی صورت منبع صورت گیرد یعنی چهره هدف همان کاری را انجام دهد که چهره منبع انجام میدهد.
این مدل بهنوبه خود جدید نیست، بلکه بخشی از موضوع تصویرسازی مصنوعی است که دنیای هوش مصنوعی در حال حاضر با آن روبهرو است. موضوع بسیار جذابی که اخیرا در رویداد رباتیک و هوش مصنوعی دانشگاه برکلی مورد بحث قرار گرفت. امکان شبیهسازی چهره بهصورت ویدئویی ازطریق الگو قرار دادن چهرهای دیگر وجود دارد. بهطوری که چهره ویدئویی میتواند حالت حرف زدن یا نگاه کردن شخصی را شبیهسازی کند. اما بسیاری از این مدلها، نیازمند اطلاعات درخورتوجهی مانند، یک تا دو دقیقه از تجزیه و تحلیل دقیق ویدئویی هستند.
در مقاله جدیدی که از سوی پژوهشگران Samsung در مرکز مسکو منتشر شده است؛ آنها موفق به ساخت ویدئویی، تنها با استفاده از یک تصویر فرد شدند که میتوانست صورتش را بچرخاند، صحبت کند و عبارات عادی را بیان کند. اگرچه این ویدئو متقاعدکننده بهنظر میرسید اما به دور از نقص نبود.
ساخت این ویدئو با استفاده از فرایند شناسایی نشانههای صورت با بهکارگیری دادههای بسیار زیاد انجام شد. این مدل بهدنبال بخشی از اجزای چهره هدف بود که با چهره منبع مطابقت پیدا میکرد. در این مدل هرچه دادهها بیشتر باشد، نتیجه بهتر و کاملتری حاصل میشود. این درحالی است که این دادهها فقط باید از یک تصویر به دست آمده باشند که به آن یادگیری تکشات (single-shot learning) گفته میشود.
با استفاده از این مدل میتوان با داشتن تنها یک تصویر از انیشتین، مریلین مونرو یا حتی مونا لیزا تصاویر متحرکی از آنها ساخت که گویا صحبت میکنند و صورتشان را مانند یک انسان واقعی حرکت میدهند.
برای نمونه، در تصویری که مشاهده میکنید مونا لیزا با سه چهره منبع مختلف بهصورت انیمیشن شبیهسازی شده است که نتایج مختلفی در ساختار صورت و رفتار آن قابل مشاهده است.
همچنین، این مدل از فناوری Generative Adversarial Network استفاده میکند. این فناوری با قرار دادن دو مدل دربرابر یکدیگر، تلاش بر فریب دیگری دارد تا بتواند بیننده را متقاعد کند که آنچه ایجاد شده واقعی است. این بدان معنا است که نتایج حاصل شده با سطح مشخصی از واقعگرایی از سوی سازندگان این مدل تعیین شده است. بهطوری که در مدل discriminator با قطعیت ۹۰ درصد گفته میشود که خروجی، تصویر یک انسان واقعی است.
در نمونههای دیگری که از سوی پژوهشگران ارائه شد، کیفیت و وضوح چهرهی شبیهسازی شدهی درحال صحبت کاملا متفاوت بود. برخی تلاش کردند تا تصویر شخصی را از یک برنامه خبری تکثیر کنند و در آن حتی زیرنویس اخبار شبکه را در زیر تصویر با کمک اطلاعات ساختگی بازسازی کردند و جزئیات تصویری دیگر را نیز در آن گنجاندند.
همانطور که گفته شد، این مدل جدید هنوز کامل نیست. این مدل تنها میتواند صورت و گردن به بالا را بهصورت ویدئویی شبیهسازی کند. پس فعلا انتظار رقصیدن مونا لیزا یا دست زدن او را نداشته باشید.
نظرات