شرکت پژوهشی OpenAI پروژه هوش مصنوعی Jukebox را معرفی کرد
شرکت پژوهشی هوش مصنوعی OpenAI امروز پروژهی Jukebox (جوکباکس) را رونمایی کرد که اولین نمونهی هوش مصنوعی تولیدکنندهی موسیقی است. با اینکه ممکن است خروجیهای این پروژه از نظر موسیقایی، بهنظر نسخهای آبکی و بدون شالودهی آهنگها باشد و حس آشنایی در شنونده ایجاد کند، ازنظر فنی پیشرفت چشمگیری بهشمار میرود. براساس آنچه اوپن ایآی در وبلاگ خود منتشر کرده است، ازآنجاکه موسیقی بهطرز عمیقی با احساسات درگیر است و درک آن برای هوش مصنوعی بسیار پیچیده و سخت خواهد بود، محققان تلاش خود را بر موسیقی متمرکز کردند. شاید بهباور بسیاری از افراد، آهنگهای تولیدشدهی مدل جوکباکس موسیقی بهحساب نیاید؛ اما درهرصورت، نتایج بهدستآمده گام بزرگی است و تقریبا در هر آهنگ برخی آکوردها و ملودیها و کلمات تشخیصدادنی است.
روش اجرای این پروژهی آزمایشگاه هوش مصنوعی OpenAI بسیار جالب بوده است. آنها برای آموزش جوکباکس بهجای استفاده از ملودیهای نمادین آماده که در اصطلاح به آن پیانولا میگویند و فاقد کلام و آواز است، از آوازها و صداهای خام استفاده کردهاند تا این مدل هوش مصنوعی چگونگی تولید صدای خام را آموزش ببیند. همچنین برای بازدهی بهتر در نتایج، محققان ابتدا با کمک شبکهی عصبی پیچشی صدای خام را رمزگذاری و فشرده کردند. سپس ازطریق فایل بهدستآمده و استفاده از آنچه تبدیلکننده مینامند و با آهنگهای متفاوتی آموزش دیده است، صدایی فشرده تولید کردند. درنهایت، فایل تولیدشده را اصطلاحا آپسمپل (Upsmaple) کردند تا امکان رمزگشایی فایل را ایجاد کنند و بعد از رمزگشایی، صدای خام جدید را بهدست آورند. به عکس زیر توجه کنید.
در پردازش سیگنالهای دیجیتالی، فرایند آپسمپلینگ بهمعنای انبساط یا درونیابی پردازش نرخ نمونهبرداری سیگنال گسسته و تبدیل آن به سیگنال پیوسته است. بهعبارتدیگر، در فرایند آپسمپلینگ با اضافهکردن نمونههایی با ارزش صفر در بین نمونههای اصلی، نرخ نمونهبرداری را افزایش میدهیم. این دادههای فاقد ارزش (Zero-Valued) در اساس فایل اصلی تأثیری نمیگذارد و تنها سبب انباسط نسبت آن میشود.
رویکرد بهکار گرفتهشده مشابه همان روشی است که OpenAI پیشازاین در توسعه و راهاندازی هوش مصنوعی ساخت آهنگ MuseNet استفاده کرده است. البته جوکباکس پا را فراتر میگذارد و علاوهبر موسیقی، متن آهنگ را نیز با همکاری محققان شرکت تولید میکند. همچنین، برخلاف سرویس MuseNet که از دادههای MIDI برای ساخت آهنگ استفاده میکند، مدل جوکباکس برپایهی ۱/۲ میلیون آهنگ مختلف آموزش داده شده که نیمی از آنها به زبان انگلیسی است. علاوهبراین، فرادادهها (Metadata) و متن شعرهای هر آهنگ از لیریکویکی (LyricWiki) استخراج شدهاند. برای مثال، اطلاعات مربوط به ژانرهای مختلف و هنرمندان نیز دردسترس هوش مصنوعی قرار داده شده تا کیفیت و بازدهی خروجی مدل را افزایش دهد. طبق آنچه در وبلاگ شرکت منتشرشده، محققان محدودیتهایی نیز برای هوض مصنوعی تعریف کردهاند.
آنها در پست وبلاگی خود نوشتند:
جوکباکس گامی فراتر در کیفیت موسیقی و انسجام موسیقایی و مدت زمان نمونهی صدای هوش مصنوعی رفته است و توانایی آموزشدیدن بهوسیلهی هنرمندان و ژانرهای موسیقی و متن آهنگها را دارد. بااینحال، همچنان تفاوت آهنگهایی که میسازد با آنچه انسان هنرمندانه ساخته، کاملا بهچشم میآید. برای مثال، با اینکه آهنگهای تولیدشدهی هوش مصنوعی انسجام موسیقایی محلی در امتداد الگوهای آکوردهای سنتی را بهنمایش میگذارد و میتواند تکنوازیهای گیرایی ایجاد کند، ساختارهای بزرگ و آشنا مثل همخوانی و تکرار را در این آهنگها نمیشنویم.
ناگفته نماند مشکلاتی نیز در این آزمایش بهوجود آمده است. چری هو، نویسنده و گوینده، در حساب توییتر خود اشاره کرده است جوکباکس فاجعهای بالقوه درزمینهی کپیرایت بهشمار میرود. جالب است بدانید در همین هفته، جی-زی (Jay-Z)، خوانندهی آمریکایی، با استفاده از حق کپیرایت تلاش کرد صدای شبیهسازیشدهی خود با دیپفیک را از یوتیوب حذف کند.
چری هو گفته است:
آیا کانیه وست و کیتی پری و لوپه فیاسکو و وکلای آرتا فرانکلین و فرانک سیناترا و الویس پریسلی اجازه خواهند داد شرکت OpenAI از صدای آنها برای آموزش هوش مصنوعی خود در ساختار الگوریتم شبیهسازی صدا و آهنگسازی و شعر نوشتن استفاده کند؟ حدس میزنم پاسخ به این پرسش «خیر» است.
با همهی اینها، جوکباکس دستاوردی شگفتانگیز است که مرزهای ناممکن را جابهجا میکند؛ حتی اگر بهباور اکثر افراد، آنچه جوکباکس ساخته، شنیدنی نباشد و هنوز به توسعه نیاز داشته باشد.