هوش مصنوعی جدید گوگل میتواند فقط با یک عکس ویدئو کوتاه بسازد
محققان با تکامل فناوریهای مختلف همچنان بهدنبال راهکارهای جدید برای استفاده از قابلیتهای مختلف هوش مصنوعی و یادگیری ماشینی هستند. دانشمندان گوگل اوایل هفتهی جاری از ایجاد چهارچوب جدیدی به نام Transframer خبر دادند که میتواند براساس ورودیهای تصویری (حتی یک عکس)، ویدئوهای کوتاه تولید کند. این تکنولوژی جدید روزی میتواند راهکارهای رندر سنتی را تقویت کند و به توسعهدهندگان اجازه دهد تا محیطهای مجازی را براساس قابلیتهای یادگیری ماشینی ایجاد کنند.
بهنوشتهی TechSpot، نام پلتفرم جدید گوگل، یعنی Transframer و بهنوعی مفهوم آن، به مدل مبتنیبر هوش مصنوعی موسوم به Transformer اشاره میکند که ابتدا در سال ۲۰۱۷ معرفی شد و درواقع، معماری جدید شبکهی عصبی با قابلیت تولید متن با مدلسازی و مقایسهی کلمات دیگر در یک جمله است. این مدل از آن زمان در چهارچوبهای یادگیری عمیق استاندارد مثل TensorFlow و PyTouch گنجانده شده است.
همانطورکه Transformer برای پیشبینی خروجیهای بالقوه از زبان استفاده میکند، پلتفرم Transframer از تصاویر زمینه با ویژگیهای مشابه همراه با حاشیهنویسی پرسوجو برای ایجاد ویدئوهای کوتاه بهره میبرد. کلیپهای ایجادشده با این فناوری در اطراف تصویر حرکت میکنند و با اینکه هیچ دادهی هندسی در ورودی تصویر اصلی ارائه نمیشود، نماهای پرسپکتیو را خیلی دقیق تجسم میکند. درادامه، توییت دیپمایند گوگل را دربارهی این پلتفرم مرور میکنیم:
Transframer چهارچوب مولد همهمنظورهای است که میتواند بسیاری از کارهای تصویری و ویدئویی را در محیطی فرضی انجام دهد. این فناوری نشان داده است که عملکرد بسیار خوبی در پیشبینی ویدئو و ترکیب تصاویر دارد و میتواند کلیپهای دههی ۳۰ را فقط با یک عکس تولید کند.
Transframer که از پلتفرم هوش مصنوعی دیپمایند گوگل استفاده میکند، با تجزیهوتحلیل یک تصویر زمینه، اجزای اصلی دادههای تصویری موردنیاز برای ساخت ویدئو و عکسهای اضافه را بهدست آورد. این سیستم در فرایند تجزیهوتحلیل خود سعی میکند تا قاب تصویر را شناسایی و از آن برای پیشبینی محیط اطراف استفاده کند. در مرحلهی بعد، از تصاویر زمینه برای پیشبینی بیشتر نحوهی ظاهرشدن عکس از زاویههای مختلف استفاده میشود.
این سیستم فریمهای تصویر اضافه را براساس دادهها و حاشیهنویسیها و هر اطلاعات دیگری که از فریمهای زمینه دردسترس است، مدلسازی میکند. چهارچوب جدید گوگل با ارائهی توانایی تولید ویدئوهای دقیق و معقول براساس مجموعهی بسیار محدودی از دادهها، نشاندهندهی گامی بزرگ در فناوری ویدئو است. Transframer نتایج بسیار امیدوارکنندهای نیز در معیارهای مرتبط با ویدئو مثل تقسیمبندی معنایی و طبقهبندی تصویر و پیشبینیهای جریان نوری نشان داده است.
پیامدهای Transframer برای صنایع مبتنیبر ویدئو مثل توسعهی بازی میتواند بهطور بالقوه بسیار زیاد باشد. محیطهای توسعهی بازی کنونی بر تکنیکهای رندر اصلی مثل سایهزنی، نقشهبرداری باقت، عمق میدان و ردیابی پرتو متکی هستند. تکنولوژیهایی مثل Transframer این قابلیت را دارند که با استفاده از هوش مصنوعی و یادگیری ماشینی، محیطهای مدنظر بازیسازان را با روشی کاملاً جدید ایجاد کنند و باعث صرفهجویی درخورتوج در زمان و منابع و تلاشهای لازم برای ایجاد این محیطها شوند.