PixelPlayer صدای پسزمینه را از موسیقی تفکیک میکند
«اثر مهمانی شبانه» یا «cocktail party effect»، پدیدهای در حوزهی شنواییسنجی و روانشناسی است که در آن فرد میتواند توجه خود را به یک محرک صوتی معطوف کرده و بقیهی محرکهای صوتی را فیلتر کند. مثلا وقتی فردی در یک مهمانی با انواع مختلف سروصدا حضور دارد؛ میتواند تنها صدای فردی را که با وی صحبت میکند، بشنود و توجهی به بقیه صداهای مزاحم محیطی نداشته باشد.
اثر مهمانی شبانه، توانایی فرد در شنیدن صدای طرف مقابل در محیطهای شلوغ از جمله در مهمانیها است. بهگونهای که وقتی طرف مقابل در حال صحبتکردن است؛ شنونده قادر است صداهای دیگر محیط از جمله موسیقی، صدای سایر مهمانها و هرگونه صدای مزاحم دیگر را فیلتر کند و فقط صدای طرف مقابل خود را که در حال صحبتکردن است، بشنود.
معمولا انسانها بهطور طبیعی، تا حدی توانایی فیلتر کردن صداهای مزاحم را دارند؛ ولی محققان MIT درصدد توسعهی این توانایی با کمک یادگیری ماشین برآمدهاند. محققان MIT با کمک یادگیری ماشین، رویکردهایی در جهت تشخیص صدای اصلی از صداهای دیگر و تفکیک آنها از یکدیگر را در دستور کار خود قرار دادهاند. هدف اصلی این پروژه، پیادهسازی اثر مهمانی شبانه با کمک سیستمهای مبتنی بر یادگیری ماشین است. محققان MIT CSAIL، اخیرا سیستمی مبتنی بر یادگیری ماشین به نام PixelPlayer معرفی کردهاند که با توجه به آموزشی که دیده است، میتواند صدای ابزارهای موسیقیایی مختلف را تشخیص بدهد.
این سیستم با استفاده از یادگیری عمیق، و با استفاده از ۶۰ ساعت اجرای موسیقی، آموزش دیده است تا بتواند با استفاده از دادههای بصری و شنیداری که در کنار هم بهصورت هماهنگ پخش میشوند، صدای موسیقی را از پسزمینه تشخیص دهد. تیم پروژه با کمک شبکههای عصبی عمیق، به سیستم آموزش دادهاند تا بتواند هم روی تصاویر و هم روی صداها تمرکز کند و با توجه به لول صدا و موقعیت قرارگیری منبع تولیدکنندهی صدا در ویدئو، ابزار موسیقیایی را تشخیص دهد.
PixelPlayer در اصل سیستمی شامل ابزار تجزیه و تحلیل ویدئویی است که میتواند هم از نظر بصری و هم از نظر صوتی، ویدئوها را مورد تجریهوتحلیل قرار دهد. این سیستم دارای یک شبکهی آنالیز صدا و یک شبکهی آنالیز تصویر است. در نهایت این دو شبکه، در کنار یک سینتی سایزر، میتوانند به تجزیهوتحلیل صداهای پخششده در ویدئوها بپردازند و صدای موسیقی را از صدای پسزمینه تفکیک کنند.
سیستم PixelPlayer بهگونهای آموزش دیده است که میتواند هم بهصورت ترکیبی و هم بهصورت جداگانه، ویژگیهای ابزار صوتی را بدون هیچگونه مداخلهای تشخیص بدهد. هانگ ژائو یکی از اعضای تیم تحقیقاتی MIT که پیشتر در تحقیقات NVIDIA حضور داشت، در مورد سیستم یادگیری عمیق اعلام کرد:
سیستم مبتنی بر یادگیری ماشین میداند چه ابزارهایی میتوانند چه نوع صدایی تولید کنند.
محققان بهمنظور پیشبرد کار خود از مجموعه دادههایی با نام MUSIC که ترکیبی از چندین ابزار موسیقی است، استفاده کردند. این دادهها از طریق ویدئوهای یوتیوب تولید شدهاند تا مدل مبتنی بر یادگیری ماشین بهکمک این اطلاعات، آموزش ببیند. MUSIC شامل ۷۱۴ ویدئو پردازش نشده از آلبومهای موسیقی و ۱۱ مجموعه ابزار موسیقی مختلف است. قدرت پردازش تراشهی گرافیکی Nvidia Titan V GPU اجازه داد تا CNN فیلمها را با سرعت بسیار بالا تجزیه و تحلیل کند.
ژائو معتقد است:
سیستم مبتنی بر یادگیری عمیق در عرض یک روز تمام دادههای مربوطه را یاد گرفته است. این سیستم اکنون میتواند بیش از ۲۰ ابزار موسیقیایی مختلف را شناسایی کند.
PixelPlayer میتواند موسیقی مربوط به ابزارهای مختلف موسیقیایی را تشخیص بدهد و صدای آن را از صدای پسزمینه تفکیک کند. هر ابزار موسیقیایی، لول صدای خاصی تولید میکنند و PixelPlayer میتواند این سطوح یا لولهای صدا را تشخیص بدهد. به اعتقاد ژائو این سیستم میتواند با کمک رباتهای صدای موسیقی را از صدای محیط تشخیص داده و این دو را از یکدیگر تفکیک کند.
البته تاکنون تیمهای تحقیقاتی مختلفی روی اثر مهمانی شبانه کار کردهاند و رویکردهای مختلفی را برای بررسی آن در پیش گرفتهاند. مقالهی تیم تحقیقاتی MIT در مورد اثر مهمانی شبانه قرار است در ماه سپتامبر (شهریورماه) در کنفرانس بینایی ماشین در اروپا ارائه شود.