هوش مصنوعی جدید متا امکان ارتباط آسان میان مردم جهان را به ۱۰۰ زبان مختلف فراهم می‌کند

سه‌شنبه 31 مرداد 1402 - 20:00

مطالعه 5 دقیقه

متا مدل هوش مصنوعی جدیدی برای ترجمه و رونویسی زبان‌های مختلف منتشر کرده است که درحال‌حاضر از حدود ۱۰۰ زبان مختلف پشتیبانی می‌کند.

تبلیغات

متا هوش مصنوعی جالبی توسعه داده است که می‌تواند طیف وسیعی از لهجه‌های مختلف سرتاسر جهان را درک کند. این مدل SeamlessM4T نام دارد و می‌تواند متن و گفتار را به ۱۰۰ زبان مختلف ترجمه و رونویسی کند.

متا ادعا می‌کند SeamlessM4T که به‌طور متن‌باز همراه با SeamlessAlign ارائه می‌شود، پیشرفت درخورتوجهی درزمینه‌ی ترجمه‌ی گفتار به گفتار و گفتار به نوشتار مبتنی‌بر هوش مصنوعی است.

غول رسانه‌های اجتماعی با انتشار پستی وبلاگی اعلام کرد:

مدل واحد ما ترجمه‌های درخواستی را ارائه می‌دهد و بدین‌ترتیب، افرادی که به زبان‌های مختلف صحبت می‌کنند، به‌طور مؤثرتر می‌توانند با یکدیگر ارتباط برقرار کنند. SeamlessM4T به‌طور ضمنی زبان‌های مبدأ و مقصد را بدون نیاز به مدل شناسایی زبان جداگانه تشخیص می‌دهد.
- متا

SeamlessM4T چیزی شبیه جانشین No Language Left Behind متا است؛ مدل ترجمه‌ی ماشینی متن‌به‌متن و مترجم گفتار که یکی از معدود سیستم‌های ترجمه‌ی مستقیم گفتار‌به‌گفتار با پشتیبانی از زبان هوکین است. همچنین، این مدل برپایه‌ی گفتار انبوه چندزبانه کار می‌کند که درواقع چهارچوب متا برای ارائه‌ی فناوری تشخیص گفتار و شناسایی زبان و ترکیب گفتار به بیش‌ از ۱۱۰۰ زبان است.

متا، تنها منبعی نیست که در توسعه‌ی ابزارهای پیشرفته‌ی ترجمه و رونویسی هوش مصنوعی سرمایه‌گذاری می‌کند. فراتر از انبوه خدمات تجاری و مدل‌های منبع‌باز که آمازون، مایکروسافت، OpenAI و تعدادی استارتاپ دیگر منتشر کرده‌اند، گوگل نیز در حال ساخت چیزی است که آن را مدل «گفتار جهانی» می‌نامد و بخشی از تلاش‌های بزرگ‌تر غول جست‌وجوی اینترنت برای ساخت مدلی درک‌پذیر است.

موزیلا نیز رهبری Common Voice را برعهده داشت که یکی از مجموعه‌های بزرگ چندزبانه‌ی صوتی برای آموزش الگوریتم‌های تشخیص خودکار گفتار محسوب می‌شود. به‌هر‌حال، SeamlessM4T یکی از تلاش‌های بلندپروازانه‌‌ی بزرگی به‌حساب می‌آید که تا امروز برای ترکیب قابلیت‌های ترجمه و رونویسی در مدلی واحد انجام شده است.

متا در توسعه‌ی SeamlessM4T از ده‌ها‌میلیارد جمله‌ی عمومی و چهار‌میلیون ساعت گفتار صوتی در محیط وب استفاده کرده است. خوان پینو، دانشمند واحد تحقیقاتی هوش مصنوعی متا و یکی از مشارکت‌کنندگان در پروژه‌ی SeamlessM4T، منابع دقیق داده‌ها را فاش نکرد و گفت تنوع زیادی در این منابع وجود دارد.

همه‌ی تولیدکنندگان محتوا با استفاده از داده‌های عمومی برای آموزش مدل‌هایی که می‌توانند به‌صورت تجاری عرضه شوند، موافق نیستند.

مجتبی بوالحسنی

هوش مصنوعی جدید متا می‌تواند ۲۰۰ زبان ازجمله فارسی را به‌طور لحظه‌ای به یکدیگر ترجمه کند

مطالعه '2

به‌هرحال، متا ادعا می‌کند داده‌هایی که از وب برای آموزش SeamlessM4T استخراج کرده است، می‌تواند حاوی اطلاعات شخصی باشد؛ البته این شرکت اعلام کرده است که داده‌های مذکور حق‌ کپی‌رایت ندارند و از منابع منبع‌باز یا با کسب مجوز به‌دست آمده‌اند.

روی‌هم‌رفته، متا از متن و گفتار استخراج‌شده از وب موسوم‌ به SeamlessAlign برای ایجاد مجموعه داده‌های موردنیاز آموزش مدل SeamlessM4T استفاده کرده است. محققان ۴۴۳,۰۰۰ ساعت گفتار هماهنگ‌شده با متن و ۲۹,۰۰۰ ساعت داده‌ی گفتار‌به‌گفتار ایجاد کردند تا به SeamlessM4T یاد دهند چگونه گفتار را به متن رونویسی و متن را ترجمه یا گفتار را براساس متن تولید کند. این مدل حتی می‌تواند کلماتی که به زبان خاصی گفته می‌شوند، به کلمات یا عبارت‌های مشابه در زبان‌های دیگر ترجمه کند.

متا ادعا می‌کند که براساس معیار داخلی این شرکت، SeamlessM4T دربرابر نویزهای پس‌زمینه و تغییر صدای اسپیکر، هیچ ضعف عملکردی از خود نشان نداد. ازنظر این شرکت، دلیل عملکرد دقیق مدل مذکور ترکیب غنی داده‌های گفتار و متن در مجموعه‌ داده‌های آموزشی اعلام شده و همین ویژگی دلیل برتری مدل جدید بر مدل‌های فقط گفتاری و فقط متنی است.

متا در پست وبلاگی خود نوشت:

براساس نتایجی که SeamlessM4T ارائه داده است، اعتقاد داریم این مدل در تلاش‌های جامعه‌ی هوش مصنوعی به‌سمت ایجاد سیستم‌های چندوظیفه‌ای جهانی، پیشرفت مهمی است.
- متا

ناگفته نماند که متا نمی‌داند مدل هوش مصنوعی SeamlessM4T چه سوگیری‌هایی می‌تواند داشته باشد. مقاله‌ای که اخیراً در The Conversation منتشر شده است، به ایرادهای بسیار زیاد در ترجمه‌ی مبتنی‌بر هوش مصنوعی ازجمله اشکال سوگیری جنسیتی اشاره دارد.

به‌عنوان مثال، سرویس ترجمه‌ی گوگل زمانی فرض می‌کرد پزشکان مَرد هستند؛ درحالی‌که پرستارهای زن فقط به زبان‌های خاصی صحبت می‌کنند. همچنین، مترجم بینگ مایکروسافت عبارت‌هایی مثل «میز نرم است» را در زبان آلمانی به‌عنوان die Tabelle ترجمه کرده است که درواقع به جدولی از ارقام اشاره می‌کند.

الگوریتم‌های تشخیص گفتار نیز اغلب سوگیری دارند. مطالعه‌ای منتشر‌شده در مجموعه مقالات آکادمی ملی علوم نشان داد که سیستم‌های تشخیص گفتار شرکت‌های بزرگ فناوری در رونویسی صدای افراد سیاه‌پوست دوبرابر ضعیف‌تر از رونویسی افراد سفید‌پوست عمل می‌کنند.

مقالات مرتبط:

مترجم هوش مصنوعی متا می‌تواند زبان‌های نانوشته را نیز تفسیر کند

هوش مصنوعی گفتاری متن‌باز متا ۴ هزار زبان متخلف را شناسایی می‌کند

جای تعجب نیست که SeamlessM4T نیز مثل اکثر مدل‌های هوش مصنوعی دچار مشکل سوگیری است. مقاله‌ی منتشر‌شده درکنار پست وبلاگی متا نشان می‌دهد که این مدل هنگام ترجمه از اصطلاحات خنثی به اشکال مذکر تعمیم می‌یابد و هنگام ترجمه از مرجع مذکر (مثل He در انگلیسی) برای اکثر زبان‌ها بهتر عمل می‌کند.

علاوه‌براین، SeamlessM4T در نبود اطلاعات جنسیتی ترجیح می‌دهد که فرم مردانه را درحدود ۱۰ درصد از مواقع ترجمه کند و این مسئله احتمالاً به‌دلیل بازنمایی بیش‌از‌حد واژه‌های مردانه در داده‌های آمزوشی متا رخ داده است.

براساس اعلام متا، SeamlessM4T متن ناخواسته‌ و اشتباه زیادی به ترجمه‌های خود اضافه نمی‌کند؛ مشکل رایجی که در ترجمه و مدل‌های متنی مولد هوش مصنوعی به‌شدت احساس می‌شود. البته مدل متا نیز کامل نیست و گاهی در ترجمه‌ی متون برخی زبان‌ها مثل بنگالی و قرقیزی، محتوای ناخواسته‌ و نامرتبط و حتی ترجمه‌های نفرت‌آمیز یا توهین‌آمیز مرتبط با فرهنگ این جوامع تولید می‌کند. به‌طور‌کلی، باید گفت SeamlessM4T در ترجمه‌های مرتبط با گرایش‌های جنسی و مذهبی، عملکرد ضعیف‌تر و سوگیری‌های بیشتری دارد.

متا اشاره می‌کند که نسخه‌های نمایشی عمومی SeamlessM4T حاوی فیلتری برای جلوگیری از ورودی‌های غیرمجاز و فیلتری برای گفتار خروجی نامتعارف است. به‌هرحال، این فیلتر به‌طور پیش‌فرض در نسخه‌ی منبع‌باز مدل وجود ندارد.

مشکل بزرگ دیگر در ترجمه‌ی مبتنی‌بر هوش مصنوعی، از‌دست‌دادن غنای واژگانی است که می‌تواند ناشی از استفاده‌ی بیش‌از‌حد از آن‌ها باشد. مترجمان انسانی برخلاف هوش مصنوعی، هنگام ترجمه‌ی از زبانی به زبان دیگر انتخاب‌های منحصربه‌فرد خود را انجام می‌دهند.

مترجمان انسانی می‌توانند متن را توضیح و عادی جلوه دهند یا آن را فشرده و خلاصه‌سازی کنند. اگرچه سیستم‌های هوش مصنوعی نیز می‌توانند ترجمه‌های دقیقی ارائه دهند، احتمال دارد در چنین شرایطی تنوع در متن تولیدشده‌ی آن‌ها به‌شدت کاهش یابد.

متا توصیه می‌کند که از SeamlessM4T برای ترجمه‌های طولانی و تأیید‌شده مثل مواردی که سازمان‌های دولتی و مقا‌م‌ها به‌رسمیت می‌شناسند، استفاده نکنید. این شرکت از استقرار SeamlessM4T نیز برای مقاصد پزشکی یا قانونی جلوگیری می‌کند تا بدین‌ترتیب مانع ترجمه‌های اشتباه در این حوزه‌های کاری حساس شود.

اقدام متا کاملاً عاقلانه است؛ زیرا حداقل چندین مورد وجود دارد که ترجمه‌ی اشتباه هوش مصنوعی به اشتباهاتی در اجرای قانون منجر شده است. سپتامبر ۲۰۱۲، پلیس به‌اشتباه به‌دلیل ترجمه‌ی نادرست پیامک یک مرد، او را به‌عنوان تروریست در نظر گرفت.

سال ۲۰۱۷ نیز، پلیسی در کانزاس از سرویس مترجم گوگل استفاده کرد تا از فردی اسپانیایی‌زبان بپرسد آیا امکان جست‌وجوی خودرو او برای کشف مواد مخدر وجود دارد یا خیر؟ بااین‌حال، از‌آن‌جا‌که ترجمه نادرست بود، راننده دقیقاً متوجه منظور پلیس نشد که با چه چیزی موافقت کرده است.

به‌هر‌حال، امیدواریم انسان‌ها در آینده به‌طور کامل از چرخه‌ی ترجمه و انتقال معانی درست متن‌ها از زبانی به‌ زبان دیگر خارج نشوند.

مقاله رو دوست داشتی؟

نظرت چیه؟

مجتبی بوالحسنی

تبلیغات

نظرات