هوش مصنوعی حالا عکس‌ها را وادار به آهنگ‌خواندن می‌کند! [تماشا کنید]

هوش مصنوعی

فناوری

جمعه 11 اسفند 1402 - 10:35

مطالعه 2 دقیقه

مهدی بازیار

هوش مصنوعی EMO علی‌بابا می‌تواند از تصاویر، ویدئو‌های واقع‌گرایانه تولید کند.

تبلیغات

محققان علی‌بابا،‌ غول فناوری چینی، هوش مصنوعی پیشرفته‌ای را به نام EMO توسعه داده‌اند که می‌تواند از یک عکس، ویدئویی واقع‌گرایانه از یک فرد درحال صحبت کردن یا آواز خواندن ایجاد کند.

چهار نمونه از تبدیل عکس به حرکات توسط هوش مصنوعی Emo از علی بابا

اِمو (کوتاه‌شده‌ی Emote Portrait Alive) را می‌توان جهشی قابل‌توجه در زمینه‌ی تولید انیمیشن‌های چهره با هوش مصنوعی دانست. این سیستم از تکنیکی به نام مدل انتشار (Diffusion Model) برای تبدیل مستقیم صدا به فریم‌های ویدئویی استفاده می‌کند؛ به لطف این روش، امو قادر است تا حالات چهره و حرکات ظریف آن را مطابق با قطعه‌های صوتی ایجاد کند.

پیش‌تر، تولید چنین ویدئو‌هایی به مدل‌های سه‌بعدی از صورت یا ترکیب تصاویر متعدد نیاز داشت؛ اما اِمو با یادگیری از بیش از ۲۵۰ ساعت ویدئو از صورت‌های درحال مکالمه برای درک چگونگی حرکات طبیعی صورت، این محدودیت‌ها را دور می‌زند. آنطور که محققان در مقاله‌ی منتشر شده در arXiv گفته‌اند، امو نسبت‌به روش‌های پیشین، نتایج با‌کیفیت‌تر و رساتری ایجاد می‌کند.

پایپ لاین شیوه‌ی کار هوش مصنوعی EMO — روند ایجاد ویدئو با استفاده از EMO

علاوه‌بر ویدئو از حرف زدن افراد، امو می‌تواند با هماهنگ کردن شکل دهان و حالات چهره، ویدئو‌هایی از آواز خواندن را با استفاده از تصاویر بسازد؛ به لطف این قابلیت، هرکس می‌تواند تنها با یک عکس و یک کلیپ صوتی، موزیک ویدئوی خودش را ایجاد کند.

نظرخواهی از افراد عادی نشان داد که ویدئو‌های اِمو نسبت به سایر سیستم‌ها، طبیعی‌تر و احساسی‌تر هستند. این هوش مصنوعی می‌تواند ویژگی‌های خاص هر فرد را به‌درستی نشان دهد و حرکاتی انسانی تولید کند. هر دو نوع ویدئو‌ی صحبت کردن و آواز خواندن را می‌توان با هر مدت‌زمانی ایجاد کرد.

مقالات مرتبط:

نمی‌توان از احتمال سوء‌استفاده از چنین سیستم‌هایی چشم‌پوشی کرد. توانایی ایجاد ویدیوهای واقع‌گرایانه از عکس‌ها، نگرانی‌هایی را در مورد جعل هویت و انتشار اطلاعات نادرست برمی‌انگیزد؛ محققان ضمن تأیید این نگرانی‌ها، می‌گوید که در تلاشند تا روش‌هایی را برای تشخیص ویدیوهای تولید شده توسط مصنوعی توسعه دهند.

مقاله رو دوست داشتی؟

نظرت چیه؟

مهدی بازیار

تبلیغات

نظرات