مدل هوش مصنوعی جدید دیپ‌مایند موسیقی متن می‌سازد و ویدیوها را صداگذاری می‌کند

سه‌شنبه ۲۹ خرداد ۱۴۰۳ - ۱۶:۰۶
مطالعه 1 دقیقه
مدل هوش مصنوعی جدید DeepMind
گوگل می‌گوید که فناوری جدیدش برای تولید موسیقی متن و همگام‌سازی آن با ویدئوها، کارآمدتر از سایر مدل‌های هوش مصنوعی است.
تبلیغات

DeepMind، آزمایشگاه تحقیقاتی هوش مصنوعی گوگل، در حال توسعه‌ی فناوری هوش مصنوعی خاصی است که می‌تواند برای فایل‌های ویدئویی، موسیقی متن هماهنگ با حال و هوای فیلم را بسازد.

به گفته‌ی دیپ‌مایند، فناوری V2A (مخفف video-to-audio) یک قطعه‌ی ضروری از پازل توانایی‌های مدل‌های هوش مصنوعی برای تولید فایل‌های ویدئویی است؛ قطعه‌ای که می‌تواند مدل هوش مصنوعی جدید دیپ مایند را در جایگاه بالاتری نسبت به رقبا قرار دهد.

DeepMind می‌گوید که مدل‌های هوش مصنوعی تولید ویدئو با سرعتی باورنکردنی در حال پیشرفت هستند؛ باوجوداین، اغلب این مدل‌ها صرفاً می‌توانند یک خروجی بی‌صدا را تولید کنند.

فناوری V2A در مدل هوش مصنوعی جدید DeepMind، علاوه بر توانایی تولید موسیقی متن، امکان ایجاد دیالوگ برای شخصیت‌ها و همچنین، ساخت جلوه‌های صوتی مناسب با سکانس خاصی در ویدئوی مورد نظر را دارد.

به گفته‌ی آزمایشگاه هوش مصنوعی گوگل، این مدل جدید DeepMind می‌تواند پیکسل‌های خام ویدئو را درک و به‌طور خودکار، صداهای تولیدشده را با ویدئو همگام‌سازی کند.

مدل هوش مصنوعی جدید DeepMind، اولین ابزار تولید صدا با هوش مصنوعی نیست و مدل‌های دیگری نیز از سوی استارتاپ Stability AI در هفته‌ی گذشته و شرکت ElevenLabs در ماه می ۲۰۲۴ (اردیبهشت و خرداد ۱۴۰۳) معرفی شدند.

DeepMind مدعی است که فناوری V2A مدل هوش مصنوعی جدیدش، یک ابزار مفید برای هنرمندان و فیلم‌سازان خواهد بود؛ اگرچه این مدل هنوز کامل نیست و جای کار دارد.

مدل هوش مصنوعی جدید گوگل، فعلاً در دسترس عموم قرار نمی‌گیرد. DeepMind دلیل این تصمیم را با زمان‌بر بودن روند ارزیابی‌های مدل مورد بحث و اطمینان از عملکرد صحیح آن پیش از عرضه‌ی عمومی، مرتبط می‌داند.

مقاله رو دوست داشتی؟
نظرت چیه؟
داغ‌ترین مطالب روز
تبلیغات

نظرات