هوش مصنوعی حالا عکسها را وادار به آهنگخواندن میکند! [تماشا کنید]
محققان علیبابا، غول فناوری چینی، هوش مصنوعی پیشرفتهای را به نام EMO توسعه دادهاند که میتواند از یک عکس، ویدئویی واقعگرایانه از یک فرد درحال صحبت کردن یا آواز خواندن ایجاد کند.
اِمو (کوتاهشدهی Emote Portrait Alive) را میتوان جهشی قابلتوجه در زمینهی تولید انیمیشنهای چهره با هوش مصنوعی دانست. این سیستم از تکنیکی به نام مدل انتشار (Diffusion Model) برای تبدیل مستقیم صدا به فریمهای ویدئویی استفاده میکند؛ به لطف این روش، امو قادر است تا حالات چهره و حرکات ظریف آن را مطابق با قطعههای صوتی ایجاد کند.
پیشتر، تولید چنین ویدئوهایی به مدلهای سهبعدی از صورت یا ترکیب تصاویر متعدد نیاز داشت؛ اما اِمو با یادگیری از بیش از ۲۵۰ ساعت ویدئو از صورتهای درحال مکالمه برای درک چگونگی حرکات طبیعی صورت، این محدودیتها را دور میزند. آنطور که محققان در مقالهی منتشر شده در arXiv گفتهاند، امو نسبتبه روشهای پیشین، نتایج باکیفیتتر و رساتری ایجاد میکند.
علاوهبر ویدئو از حرف زدن افراد، امو میتواند با هماهنگ کردن شکل دهان و حالات چهره، ویدئوهایی از آواز خواندن را با استفاده از تصاویر بسازد؛ به لطف این قابلیت، هرکس میتواند تنها با یک عکس و یک کلیپ صوتی، موزیک ویدئوی خودش را ایجاد کند.
نظرخواهی از افراد عادی نشان داد که ویدئوهای اِمو نسبت به سایر سیستمها، طبیعیتر و احساسیتر هستند. این هوش مصنوعی میتواند ویژگیهای خاص هر فرد را بهدرستی نشان دهد و حرکاتی انسانی تولید کند. هر دو نوع ویدئوی صحبت کردن و آواز خواندن را میتوان با هر مدتزمانی ایجاد کرد.
نمیتوان از احتمال سوءاستفاده از چنین سیستمهایی چشمپوشی کرد. توانایی ایجاد ویدیوهای واقعگرایانه از عکسها، نگرانیهایی را در مورد جعل هویت و انتشار اطلاعات نادرست برمیانگیزد؛ محققان ضمن تأیید این نگرانیها، میگوید که در تلاشند تا روشهایی را برای تشخیص ویدیوهای تولید شده توسط مصنوعی توسعه دهند.