هوش مصنوعی جدید متا امکان ارتباط آسان میان مردم جهان را به ۱۰۰ زبان مختلف فراهم میکند
متا هوش مصنوعی جالبی توسعه داده است که میتواند طیف وسیعی از لهجههای مختلف سرتاسر جهان را درک کند. این مدل SeamlessM4T نام دارد و میتواند متن و گفتار را به ۱۰۰ زبان مختلف ترجمه و رونویسی کند.
متا ادعا میکند SeamlessM4T که بهطور متنباز همراه با SeamlessAlign ارائه میشود، پیشرفت درخورتوجهی درزمینهی ترجمهی گفتار به گفتار و گفتار به نوشتار مبتنیبر هوش مصنوعی است.
غول رسانههای اجتماعی با انتشار پستی وبلاگی اعلام کرد:
مدل واحد ما ترجمههای درخواستی را ارائه میدهد و بدینترتیب، افرادی که به زبانهای مختلف صحبت میکنند، بهطور مؤثرتر میتوانند با یکدیگر ارتباط برقرار کنند. SeamlessM4T بهطور ضمنی زبانهای مبدأ و مقصد را بدون نیاز به مدل شناسایی زبان جداگانه تشخیص میدهد.- متا
SeamlessM4T چیزی شبیه جانشین No Language Left Behind متا است؛ مدل ترجمهی ماشینی متنبهمتن و مترجم گفتار که یکی از معدود سیستمهای ترجمهی مستقیم گفتاربهگفتار با پشتیبانی از زبان هوکین است. همچنین، این مدل برپایهی گفتار انبوه چندزبانه کار میکند که درواقع چهارچوب متا برای ارائهی فناوری تشخیص گفتار و شناسایی زبان و ترکیب گفتار به بیش از ۱۱۰۰ زبان است.
متا، تنها منبعی نیست که در توسعهی ابزارهای پیشرفتهی ترجمه و رونویسی هوش مصنوعی سرمایهگذاری میکند. فراتر از انبوه خدمات تجاری و مدلهای منبعباز که آمازون، مایکروسافت، OpenAI و تعدادی استارتاپ دیگر منتشر کردهاند، گوگل نیز در حال ساخت چیزی است که آن را مدل «گفتار جهانی» مینامد و بخشی از تلاشهای بزرگتر غول جستوجوی اینترنت برای ساخت مدلی درکپذیر است.
موزیلا نیز رهبری Common Voice را برعهده داشت که یکی از مجموعههای بزرگ چندزبانهی صوتی برای آموزش الگوریتمهای تشخیص خودکار گفتار محسوب میشود. بههرحال، SeamlessM4T یکی از تلاشهای بلندپروازانهی بزرگی بهحساب میآید که تا امروز برای ترکیب قابلیتهای ترجمه و رونویسی در مدلی واحد انجام شده است.
متا در توسعهی SeamlessM4T از دههامیلیارد جملهی عمومی و چهارمیلیون ساعت گفتار صوتی در محیط وب استفاده کرده است. خوان پینو، دانشمند واحد تحقیقاتی هوش مصنوعی متا و یکی از مشارکتکنندگان در پروژهی SeamlessM4T، منابع دقیق دادهها را فاش نکرد و گفت تنوع زیادی در این منابع وجود دارد.
همهی تولیدکنندگان محتوا با استفاده از دادههای عمومی برای آموزش مدلهایی که میتوانند بهصورت تجاری عرضه شوند، موافق نیستند.
بههرحال، متا ادعا میکند دادههایی که از وب برای آموزش SeamlessM4T استخراج کرده است، میتواند حاوی اطلاعات شخصی باشد؛ البته این شرکت اعلام کرده است که دادههای مذکور حق کپیرایت ندارند و از منابع منبعباز یا با کسب مجوز بهدست آمدهاند.
رویهمرفته، متا از متن و گفتار استخراجشده از وب موسوم به SeamlessAlign برای ایجاد مجموعه دادههای موردنیاز آموزش مدل SeamlessM4T استفاده کرده است. محققان ۴۴۳,۰۰۰ ساعت گفتار هماهنگشده با متن و ۲۹,۰۰۰ ساعت دادهی گفتاربهگفتار ایجاد کردند تا به SeamlessM4T یاد دهند چگونه گفتار را به متن رونویسی و متن را ترجمه یا گفتار را براساس متن تولید کند. این مدل حتی میتواند کلماتی که به زبان خاصی گفته میشوند، به کلمات یا عبارتهای مشابه در زبانهای دیگر ترجمه کند.
متا ادعا میکند که براساس معیار داخلی این شرکت، SeamlessM4T دربرابر نویزهای پسزمینه و تغییر صدای اسپیکر، هیچ ضعف عملکردی از خود نشان نداد. ازنظر این شرکت، دلیل عملکرد دقیق مدل مذکور ترکیب غنی دادههای گفتار و متن در مجموعه دادههای آموزشی اعلام شده و همین ویژگی دلیل برتری مدل جدید بر مدلهای فقط گفتاری و فقط متنی است.
متا در پست وبلاگی خود نوشت:
براساس نتایجی که SeamlessM4T ارائه داده است، اعتقاد داریم این مدل در تلاشهای جامعهی هوش مصنوعی بهسمت ایجاد سیستمهای چندوظیفهای جهانی، پیشرفت مهمی است.- متا
ناگفته نماند که متا نمیداند مدل هوش مصنوعی SeamlessM4T چه سوگیریهایی میتواند داشته باشد. مقالهای که اخیراً در The Conversation منتشر شده است، به ایرادهای بسیار زیاد در ترجمهی مبتنیبر هوش مصنوعی ازجمله اشکال سوگیری جنسیتی اشاره دارد.
بهعنوان مثال، سرویس ترجمهی گوگل زمانی فرض میکرد پزشکان مَرد هستند؛ درحالیکه پرستارهای زن فقط به زبانهای خاصی صحبت میکنند. همچنین، مترجم بینگ مایکروسافت عبارتهایی مثل «میز نرم است» را در زبان آلمانی بهعنوان die Tabelle ترجمه کرده است که درواقع به جدولی از ارقام اشاره میکند.
الگوریتمهای تشخیص گفتار نیز اغلب سوگیری دارند. مطالعهای منتشرشده در مجموعه مقالات آکادمی ملی علوم نشان داد که سیستمهای تشخیص گفتار شرکتهای بزرگ فناوری در رونویسی صدای افراد سیاهپوست دوبرابر ضعیفتر از رونویسی افراد سفیدپوست عمل میکنند.
جای تعجب نیست که SeamlessM4T نیز مثل اکثر مدلهای هوش مصنوعی دچار مشکل سوگیری است. مقالهی منتشرشده درکنار پست وبلاگی متا نشان میدهد که این مدل هنگام ترجمه از اصطلاحات خنثی به اشکال مذکر تعمیم مییابد و هنگام ترجمه از مرجع مذکر (مثل He در انگلیسی) برای اکثر زبانها بهتر عمل میکند.
علاوهبراین، SeamlessM4T در نبود اطلاعات جنسیتی ترجیح میدهد که فرم مردانه را درحدود ۱۰ درصد از مواقع ترجمه کند و این مسئله احتمالاً بهدلیل بازنمایی بیشازحد واژههای مردانه در دادههای آمزوشی متا رخ داده است.
براساس اعلام متا، SeamlessM4T متن ناخواسته و اشتباه زیادی به ترجمههای خود اضافه نمیکند؛ مشکل رایجی که در ترجمه و مدلهای متنی مولد هوش مصنوعی بهشدت احساس میشود. البته مدل متا نیز کامل نیست و گاهی در ترجمهی متون برخی زبانها مثل بنگالی و قرقیزی، محتوای ناخواسته و نامرتبط و حتی ترجمههای نفرتآمیز یا توهینآمیز مرتبط با فرهنگ این جوامع تولید میکند. بهطورکلی، باید گفت SeamlessM4T در ترجمههای مرتبط با گرایشهای جنسی و مذهبی، عملکرد ضعیفتر و سوگیریهای بیشتری دارد.
متا اشاره میکند که نسخههای نمایشی عمومی SeamlessM4T حاوی فیلتری برای جلوگیری از ورودیهای غیرمجاز و فیلتری برای گفتار خروجی نامتعارف است. بههرحال، این فیلتر بهطور پیشفرض در نسخهی منبعباز مدل وجود ندارد.
مشکل بزرگ دیگر در ترجمهی مبتنیبر هوش مصنوعی، ازدستدادن غنای واژگانی است که میتواند ناشی از استفادهی بیشازحد از آنها باشد. مترجمان انسانی برخلاف هوش مصنوعی، هنگام ترجمهی از زبانی به زبان دیگر انتخابهای منحصربهفرد خود را انجام میدهند.
مترجمان انسانی میتوانند متن را توضیح و عادی جلوه دهند یا آن را فشرده و خلاصهسازی کنند. اگرچه سیستمهای هوش مصنوعی نیز میتوانند ترجمههای دقیقی ارائه دهند، احتمال دارد در چنین شرایطی تنوع در متن تولیدشدهی آنها بهشدت کاهش یابد.
متا توصیه میکند که از SeamlessM4T برای ترجمههای طولانی و تأییدشده مثل مواردی که سازمانهای دولتی و مقامها بهرسمیت میشناسند، استفاده نکنید. این شرکت از استقرار SeamlessM4T نیز برای مقاصد پزشکی یا قانونی جلوگیری میکند تا بدینترتیب مانع ترجمههای اشتباه در این حوزههای کاری حساس شود.
اقدام متا کاملاً عاقلانه است؛ زیرا حداقل چندین مورد وجود دارد که ترجمهی اشتباه هوش مصنوعی به اشتباهاتی در اجرای قانون منجر شده است. سپتامبر ۲۰۱۲، پلیس بهاشتباه بهدلیل ترجمهی نادرست پیامک یک مرد، او را بهعنوان تروریست در نظر گرفت.
سال ۲۰۱۷ نیز، پلیسی در کانزاس از سرویس مترجم گوگل استفاده کرد تا از فردی اسپانیاییزبان بپرسد آیا امکان جستوجوی خودرو او برای کشف مواد مخدر وجود دارد یا خیر؟ بااینحال، ازآنجاکه ترجمه نادرست بود، راننده دقیقاً متوجه منظور پلیس نشد که با چه چیزی موافقت کرده است.
بههرحال، امیدواریم انسانها در آینده بهطور کامل از چرخهی ترجمه و انتقال معانی درست متنها از زبانی به زبان دیگر خارج نشوند.