دیپ مایند گوگل صدای مصنوعی را به صدای طبیعی انسان نزدیک تر میکند
یکی از سیستمهای قدر در حوزهی هوش مصنوعی سیستم دیپمایند گوگل است که موفقیتهای بسیار زیادی را کسب کرده است. این سیستم هوش مصنوعی در ماههای اخیر موفق شد تا قهرمان جهان در رشتهی Go را شکست داده و نام خود را به عنوان اولین سیستم هوش مصنوعی که موفق شده تا در این بازی پیچیده بر انسان چیره شود، ثبت کند. گوگل البته به این موفقیت اکتفا نکرده و سیستم دیپمایند را بیش از پیش توسعه داده و مرزهای جدیدی را پیش روی سیستم هوش مصنوعی خود گشوده است. غول جستجو امروز اعلام کرده که توانایی جدید دیپمایند در تبدیل متن به صوت است یا تولید گفتار بصورت مصنوعی است.
پیشرفت های صورت گرفته در فناوریهای تبدیل متن به صوت
براساس اطلاعات ارائه شده توسط گوگل، فناوری دیپمایند WaveNet نام دارد. ویونت موفق شده تا تفاوت میان بهترین سیستم تبدیل متن به گفتار گوگل را با سیستم گویش انسان از نظر طبیعی بودن بیش از ۵۰ درصد کاهش دهد.
گوگل تا امروز از سیستم الحاقی تبدیل متن به صدا (Concatenative TTS) استفاده میکند. در این سیستم از تکههای لغات تلفظ شده توسط یک انسان استفاده میشود که با کنار هم قرار گرفتن، یک جمله را تشکیل میدهند. همین ساختار باعث میشود تا جملاتی که توسط سیستم تبدیل به متن گوگل تلفظ میشود جلوهای رباتیک پیدا کرده و ساختاری طبیعی نداشته باشد.
گوگل همچنین از رویکرد پارامتری (Parametric) نیز استفاده کرده، بطوریکه تمام اطلاعات مورد نیاز برای تولید اطلاعات در پارامترهای یک مدل ذخیره شده و در نتیجه محتوا و مشخصات لحن صوت تولید شده امکان کنترل را فراهم میکند. البته فناوری پارامتری فقط در زبانهای غیرهجایی کاربرد بالایی داشته که از جملهی این زبانها میتوان به چینی اشاره کرد. البته این فناوری باعث شد تا در زبانهای نظیر انگلیسی نیز گفتار تا حد زیادی طبیعیتر از فناوری الحاقی باشد.
WaveNet چگونه کار میکند؟
ویونت یک شبکهی عصبی کانولوشن (شبکهی عصبی پیشخور) است که میتواند موج خام یک صوت را در لحظه ویرایش کند. این بدین معنی است که برای یک ثانیه از صوت، ویونت میتواند ۱۶٫۰۰۰ نمونهی موج صدا را ویرایش کند، همین قابلیت باعث میشود تا صدای مصنوعی تولید شده بسیار طبیعیتر به نظر برسد. ویونت قادر است تا صداهایی نظیر صدای ایجاد شده در زمان تکان دادن دهان یا تنفس را نیز تولید کند که نشان از ظرفیت ویرایش امواج خام صوت دارد.
شبکهی عصبی ویونت ابتدا با استفاده از امواج صدای طبیعی انسانها تغذیه میشود. پس از آنکه این شبکهی عصبی آموزش دید، ویونت میتواند با استفاده از دادههایی که در اختیار دارد، بصورت مصنوعی تکلم کند. فرآیند بررسی نمونههای دریافتی از نظر پردازشی هزینهی بسیار بالایی دارد، اما گوگل اعلام کرده که این هزینهی بالای پردازشی برای تولید صدای طبیعی بسیار ضروری است.
گوگل برای نمایش اینکه این سیستم تا چه اندازه میتواند صدای طبیعی تولید کند، آزمایشی را انجام داده که در آن از کاربران خواسته شده تا به صدای ۱۰۰ جملهی بیان شده توسط ویونت در کنار جملات بیان شده توسط انسانها امتیاز دهند. کاربران از نظر طبیعی بودن تلفظ و لحن، از پنج به هر جمله امتیاز دادهاند که در جدول نیز میتوان نتایج را برای دو زبان انگلیسی و چینی مشاهده کرد. همانطور که در نمودارهای زیر میبینید، ویونت موفق شده تا فاصلهی بهترین فناوری تبدیل متن به صوت گوگل را با زبان طبیعی تلکم شده توسط انسانها کاهش دهد که میزان این بهبود قریب به ۵۰ درصد است.
گوگل اعلام کرده که روی ویونت کار میکند تا این سیستم بیش از پیش قویتر شده و بتواند طبیعیتر از پیش متون را به صوت تبدیل کند. همچنین متخصصان غول جستجو در نظر دارند تا هزینهی پردازشی این سیستم را نیز کاهش دهند. این کمپانی استفاده از سیستم تبدیل متن به صوت را در آیندهی نزدیک بصورت تجاری در محصولات خود مورد استفاده قرار خواهد داد.
نظرات