گوگل دو مدل هوش مصنوعی برای تبدیل متن به ویدئو بهنمایش گذاشت
متا شرکت مادر فیسبوک هفتهی گذشته مدل هوش مصنوعی جدیدی بهنمایش گذاشت که توضیحات متنی را به ویدئوهای کوتاه و بدونصدا تبدیل میکند. ظاهراً گوگل نیز روی چنین سیستمی کار میکند؛ چراکه دو مدل هوش مصنوعی جدید برای تبدیل متن به ویدئو بهنمایش گذاشته که یکی از آنها روی کیفیت تصاویر تمرکز دارد و دیگری برای تولید کلیپهای طولانیتر درنظر گرفته شده است.
ابتدا نگاهی به Imagen Video، مدل هوش مصنوعی گوگل برای ساخت ویدئوهای باکیفیت خواهیم داشت. این سیستم براساس تکنیکهایی در سیستم تصویربهتصویر قبلی گوگل کار میکند، اما دستهای از اجزای جدید را بهکار میگیرد تا فریمهای ثابت را به حرکت روان تبدیل کند.
بهنوشتهی ورج، نتایج بهدست آمده از هوش مصنوعی گوگل مثل مدل Make-A-Video متا، باورنکردنی، عجیبوغریب و البته دربرخی موارد ناامیدکننده هستند. قانعکنندهترین نمونهی آن، ویدئوهایی است که انیمیشنها را تکرار میکنند که ازجمله میتوان به جوانههای سبزی که کلمات Imagen را تشکیل میدهند یا مجسمههای چوبی که درفضا موجسواری میکند اشاره کرد. زیرا الزاماً انتظار نداریم چنین ویدیوهایی از قوانین سختگیرانه ترکیب زمانی و مکانی پیروی کنند. درواقع این انیمیشنها میتوانند کمی آهستهتر اجرا شوند.
از ضعیفترین نتایج بهدست آمده از مدل تبدیل متن به ویدئوی گوگل، میتوان به کلیپهایی مثل پارو کردن برف اشاره کرد که حرکت انسانها و حیوانات را تکرار میکنند. در اینجا، هنگامیکه چنین تصور روشنی از نحوهی حرکت بدن و اندام داریم، تغییر شکل و زوال فیلم آشکارتر است. بااینحال، صرفنظر از این موضوع، همهی ویدئوها بسیار چشمگیر هستند.
توضیح ارائهشده برای ساخت این ویدئو: یک مو کوتاه بریتانیایی که از روی کاناپه میپرد.
توضیح ارائهشده برای ساخت این ویدئو: جوانههایی به شکل متن «Imagen» که از یک کتاب افسانهای بیرون میآید.
توضیح ارائهشده برای ساخت این ویدئو: پارو کردن برف.
توضیح ارائهشده برای ساخت این ویدئو: مجسمهی چوبی درحال موجسواری روی تختهی موج سواری در فضا.
محققان گوگل خاطرنشان میکنند که مدل Imagen Video ویدئوهایی با ۱۶ فریم و سرعت ۳ فریمبرثانیه را با وضوح ۲۴ در ۴۸ پیکسل ارائه میدهد. این محتوا درمرحلهی بعد با مدلهای افزایش وضوح تصویر مبتنیبر هوش مصنوعی پردازش میشود و در این گام خروجی به ۱۲۸ فریم با سرعت ۲۴ فریمبرثانیه و وضوح ۱۲۸۰ در ۷۶۸ پیکسل ارتقا پیدا میکند. این وضوح بالاتر از مدل Make-A-Video متا (۷۶۸ در ۷۶۸ پیکسل) است.
همانطور که درمورد اولین مدل متا برای تبدیل متن به ویدئو توضیح دادیم، ظهور این فناوری چالشهای مختلفی بههمراه دارد که ازجمله میتوان به تعصبات نژادی و جنسیتی و پتانسیل سواستفاده از آنها برای تبلیغات، هرزهنگاری و ارائهی اطلاعات نادرست اشاره کرد. محققان گوگل در مقالهی خود بهطور خلاصه از این موضوع فرار میکنند. این تیم میگوید:
برای تأثیرگذاری مثبت مدلهای تولیدکنندهی ویدئو روی جامعه، این سیستمها باید با تقویت و افزایش خلاقیت انسان، مورداستفاده قرار گیرند. بااینحال، امکان سواستفاده از این مدلها برای ساخت محتوای جعلی، نفرتانگیز یا مضر نیز وجود دارد.
این تیم خاطرنشان میکند که فیلترهایی را آزمایش کرده است تا جلوی سواستفاده از مدلهای تبدیل متن به ویدئو را بگیرد، اما هیچ توضیحی درمورد میزان تأثیر این فیلترها ارائه نکردند؛ البته از نظر محققان، مدل هوش مصنوعی آنها در چندین مورد امنیتی و اخلاقی عملکرد خوبی ارائه داده است.
Imagen Video یک پروژهی تحقیقاتی است و گوگل با عدم انتشار آن برای عموم کاربران، از آسیبهای احتمالی آن روی جامعه جلوگیری میکند. شایانذکر است که هوش مصنوعی Make-A-Video متا نیز دردسترس عموم قرار ندارد و بههمین روش محدود شده است. این مدلها مثل سیستمهای تبدیل متن به تصویر بهزودی قبلاز انتشار عمومی بهعنوان مدلهای منبعباز دراختیار محققان دیگر قرار خواهند گرفت و در آن زمان، چالشهای امنیتی و اخلاقی جدیدی درمورد استفاده از آنها بهوجود خواهد آمد.
توضیح ارائهشده برای ساخت این ویدئو: گربهای در سمت چپ سگ.
توضیح ارائهشده برای ساخت این ویدئو: خرس عروسکی درحال شستن ظروف.
توضیح ارائهشده برای ساخت این ویدئو: دستی فنجان را بلند میکند.
گوگل علاوهبر Imagen Video، تیم جداگانهای از محققان خود را برای توسعهی مدل تبدیل متن به ویدئو دیگری بهنام Phenaki بهکار گرفته است. این مدل درمقایسه با Imagen Video، با تمرکز بر ایجاد ویدئوهای طولانیتر توسعه داده شده و دستورالعملهای دقیقی را دنبال میکند. بهعنوان مثال متن زیر را درنظر بگیرید:
ترافیک زیاد در شهری آیندهنگرانه. یک سفیهی فضایی بیگانه به شهر آیندهنگر میرسد. دوربین داخل سفینهی فضایی بیگانه میشود. دوربین بهجلو حرکت میکند و فضانوردی را در یک اتاق آبی، نشان میدهد. فضانورد درحال تایپکردن روی صفحهکلید است. دوربین از فضانورد دور میشود. فضانورد کلید را ترک میکند و بهسمت چپ میرود. فضانورد، کیبورد را رها میکند و میرود. دوربین فراتر از فضانورد حرکت میکند و صفحه را نشان میدهد. صفحهی پشت فضانورد، ماهیهایی را درحال شناکردن در دریا نشان میدهد. بزرگنمایی تصادفی بهسمت ماهی آبی. ماهی آبی را درحالیکه در اقیانوسی تاریک شنا میکند، دنبال میکنیم. دوربین از میان آب به آسمان اشاره میکند. اقیانوس و خط ساحلی یک شهر آیندهنگر. بزرگنمایی بهسمت یک آسمانخراش آیندهنگرانه. دوربین روی یکی از پنجرهها بزرگنمایی میکند. ما در یک اتاق اداری با میزهای خالی حضور داریم. یک شیر، بالای میزهای اداری راه میرود. دوربین روی صورت شیر در داخل دفتر بزرگنمایی میکند. بزرگنمایی ادامه پیدا میکند تا نمایی از شیری که کتوشلوار تیره بهتن دارد در اتاق اداری نمایش داده شود. شیر کتشلواری به دوربین نگاه میکند و لبخند میزند. دوربین بهآرامی بهسمت نمای بیرونی آسمانخراش بزرگنمایی میکند. تایملپس غروب خورشید در شهر مدرن.
مدل هوش مصنوعی Phenaki با دریافت متن فوق، ویدئویی مثل نمونهی زیر را تولید میکند.
واضح است که ویدئو فوق، انسجام و وضوح مناسبی ندارد و درواقع کیفیت آن نسبت به نمونههای تولید شده با Imagen Video کمتر است، اما مجموعهی پایدار صحنهها و تنظیمات آن واقعاً جذاب بهنظر میرسد.
محققان در مقالهی مربوط به توضیح مدل Phenaki میگویند روش آنها میتواند ویدئوهایی با طول بسیار زیاد ایجاد کند و درواقع محدودیتی ازنظر طول ویدئو در آن وجود ندارد. آنها همچنین اعلام کردهاند نسخههای آیندهی این مدل بخشی از ابزارهای گسترده برای هنرمندان و کاربران عادی خواهد بود که راههای جدید و هیجانانگیزی برای بیان خلاقیتها ارائه میدهد. حال باید دید آیندهی این سیستم مبتنیبر هوش مصنوعی بهچه سمتی پیش خواهد رفت و آیا گوگل میتواند چالشهای اخلاقی و امنیتی آن را برطرف سازد یا خیر.