مدل هوش مصنوعی جدید دیپمایند موسیقی متن میسازد و ویدیوها را صداگذاری میکند
DeepMind، آزمایشگاه تحقیقاتی هوش مصنوعی گوگل، در حال توسعهی فناوری هوش مصنوعی خاصی است که میتواند برای فایلهای ویدئویی، موسیقی متن هماهنگ با حال و هوای فیلم را بسازد.
به گفتهی دیپمایند، فناوری V2A (مخفف video-to-audio) یک قطعهی ضروری از پازل تواناییهای مدلهای هوش مصنوعی برای تولید فایلهای ویدئویی است؛ قطعهای که میتواند مدل هوش مصنوعی جدید دیپ مایند را در جایگاه بالاتری نسبت به رقبا قرار دهد.
DeepMind میگوید که مدلهای هوش مصنوعی تولید ویدئو با سرعتی باورنکردنی در حال پیشرفت هستند؛ باوجوداین، اغلب این مدلها صرفاً میتوانند یک خروجی بیصدا را تولید کنند.
فناوری V2A در مدل هوش مصنوعی جدید DeepMind، علاوه بر توانایی تولید موسیقی متن، امکان ایجاد دیالوگ برای شخصیتها و همچنین، ساخت جلوههای صوتی مناسب با سکانس خاصی در ویدئوی مورد نظر را دارد.
به گفتهی آزمایشگاه هوش مصنوعی گوگل، این مدل جدید DeepMind میتواند پیکسلهای خام ویدئو را درک و بهطور خودکار، صداهای تولیدشده را با ویدئو همگامسازی کند.
مدل هوش مصنوعی جدید DeepMind، اولین ابزار تولید صدا با هوش مصنوعی نیست و مدلهای دیگری نیز از سوی استارتاپ Stability AI در هفتهی گذشته و شرکت ElevenLabs در ماه می ۲۰۲۴ (اردیبهشت و خرداد ۱۴۰۳) معرفی شدند.
DeepMind مدعی است که فناوری V2A مدل هوش مصنوعی جدیدش، یک ابزار مفید برای هنرمندان و فیلمسازان خواهد بود؛ اگرچه این مدل هنوز کامل نیست و جای کار دارد.
مدل هوش مصنوعی جدید گوگل، فعلاً در دسترس عموم قرار نمیگیرد. DeepMind دلیل این تصمیم را با زمانبر بودن روند ارزیابیهای مدل مورد بحث و اطمینان از عملکرد صحیح آن پیش از عرضهی عمومی، مرتبط میداند.
نظرات