موفقیت هوش مصنوعی بایدو در درک زبان طبیعی
اوایل ماه جاری، بایدو، غول فناوری چینی، موفق شد بیشترین پتنت در حوزهی هوش مصنوعی را ثبت کند و مایکروسافت و گوگل را در رقابت تنگاتنگ در این حوزه پشتسر گذاشت. بایدو که برخی آن را همتای چینی گوگل میدانند، بیشترین ثبت اختراع و رقابت را در حوزهی ارزشیابی درک زبان عمومی داشته است که بهاختصار GLUE خوانده میشود.
GLUE بنچمارک شناختهشده و مقبولی در حوزهی مطالعات زبانی است که مشخص میکند هر سیستم هوش مصنوعی چقدر میتواند زبان انسانی را درک کند. این بنچمارک شامل ۹ تکلیف درک زبان طبیعی شامل نامیدن اسامی افراد و سازمانها در جمله و تشخیص مرجع ضمایری چون «آن» در جملات است که مشخص کند به کدامیک از چندین اسم مشخص در جمله بازمیگردد. مدل زبانیای که در جدول ردهبندی GLUE بیشترین امتیاز را دارد، میتواند ازپس متنوعترین تکالیف درک مطلب زبانی نیز برآید. عملکرد درک زبان انسانی GLUE نمرهی ۸۷ از ۱۰۰ را کسب کرده است؛ اما اکنون بایدو با مدل زبانی خود بهنام ERNIE اولین تیمی است که موفق شده از نمرهی ۹۰ فراتر رود.
جدول ردهبندی GLUE دائما در حال تغییر است و جای تعجب نخواهد بود اگر تیم دیگری بهزودی جای بایدو را در مقام اول جدول ازآنِ خود کند. نکتهی درخورتوجه دربارهی موفقیت بایدو این است که نشان میدهد چگونه تحقیقات هوش مصنوعی از تنوع مشارکتکنندگان سود میبرد. بنابراین، پژوهشگران هوش مصنوعی بایدو تکنیکی را بهطور خاص برای زبان چینی بهنام «بازنمود پیشرفته ازطریق یکپارچهسازی دانش» ساختهاند که بهاختصار ERNIE خوانده میشود. این تکنیک بهطور خاص برای زبان چینی طراحی شده است؛ اما همین تکنیک باعث عملکرد بهتر درک زبان انگلیسی نیز شده است.
تاریخچهی ERNIE
ERNIE پیشرفت خود را باید قدردان مدل زبانی هوش مصنوعی گوگل بهنام BERT باشد که با الهام از این مدل زبانی شکل گرفته است. گفتنی است ERNIE و BERT هر دو با نام شخصیتهای Sesame Street نامگذاری شدهاند. قبل از ایجاد مدل زبانی BERT، یعنی «بازنمود رمزگذار دوسویهی زبانی از ترنسفورمرها (مبدلها)»، در اواخر سال ۲۰۱۸، مدلهای زبان طبیعی چندان حرفی برای گفتن نداشتند.
مدلهای زبانی قبلی در پیشبینی کلمهی بعدی در یک جمله عملکرد خوبی داشتند؛ بنابراین، برای اپلیکیشنهایی چون Autocomplete مناسب بودند؛ اما آنها حتی نمیتوانستند مفهوم عبارتی کوتاه را در متنی کوچک حفظ کنند. دلیل این ضعف بزرگ آن بود که مدلهای زبانی قبلی توانایی درک معنا را نداشتند؛ بنابراین، هنگامی که با ضمیری مثل «آن» مواجه میشدند، نمیتوانستند تشخیص دهند این ضمیر به کدام اسم مشخص در جمله اشاره میکند.
در مدل زبانی BERT همهچیز تغییر کرد. مدلهای قبلی زبانی، آموزش دیده بودند تا بتوانند معنای واژهی درون بافت و ساختار جمله را باتوجهبه واژهی قبل یا بعد از آن پیشبینی یا تفسیر کنند؛ ولی هرگز نمیتوانستند بهصورت همزمان این کار را انجام دهند؛ بنابراین، به آنها مدل زبانی تکسویه (Unidirectional Language Model) گفته میشد.
این در حالی است که مدل زبانی BERT در ساختار متنی میتواند قبل و بعد از واژه را بهطور همزمان بررسی کند که به آن مدل زبانی دوسویه (Bidirectional Language Model) گفته میشود. این عمل در مدل زبانی دوسویه با تکنیکی بهنام Masking انجام میشود. در بخش معینی از هر متن، BERT بهطور تصادفی ۱۵ درصد از کلمات را مخفی و سپس سعی میکند باتوجهبه مفهوم و معنا، کلمات مخفیشده را از باقی متن پیشبینی کند. چنین تواناییای به BERT این امکان را میدهد تا پیشبینیهای دقیقتری انجام دهد؛ زیرا دوبرابر بیشتر از آنچه تصورش را کنید، سرنخ دراختیار خواهد داشت. برای نمونه، در جملهای چون «آن مرد برای خرید شیر به ...... رفت»، واژگانی که در آغاز و پایان جمله وجود دارند، حاوی سرنخهایی برای کلمهی صحیح جای خالی هستند؛ یعنی سرنخها اشاره میکنند واژهی مناسب جای خالی باید نام مکانی باشد که میتوان به آنجا رفت و شیر خرید. گفتنی است ترجمهی جمله بهدلیل ساختار متفاوت قرارگرفتن فعل و مفعول در فارسی به این شکل نوشته شده است و ترجمهی واژهبهواژهی جملهی مذکور در زبان انگلیسی بهصورت «آن مرد به رفت ..... برای خرید شیر» است.
استفاده از تکنیک Masking یکی از مهمترین نوآوریها درپس پیشرفتهای چشمگیر تکالیف زبان طبیعی بوده است؛ بهطوریکه حتی دلیل موفقیت سیستم هوش مصنوعی تولیدکنندهی متن لابراتور تحقیقاتی OpenAI بهنام GPT-2 نیز در همین امر است که میتواند بدون انحراف معنایی متون بسیار قانعکننده و صحیحی تولید کند.
از زبانی انگلیسی به چینی و دوباره برعکس
هنگامی ه پژوهشگران بایدو توسعهی مدل زبانی خود را شروع کردند، قصد داشتند مدل زبانی خود را برپایهی تکنیک Masking ایجاد کنند؛ اما متوجه شدند خودشان باید این تکنیک را متناسب با زبان چینی تغییر دهند.
در زبان انگلیسی، واژه بهعنوان واحد معنایی عمل میکند؛ بهطوریکه اگر حتی واژهای را کاملا از متن بیرون بکشیم، همچنان معنیدار است؛ درحالیکه در زبان چینی اینطور نیست. زبان چینی الفبا ندارد و بهجای آن حاوی بیش از ۸۰ هزار نویسه است. زبان چینی کاملا نقاشیای است که به خط تبدیل شده، برای همین به زبان «اندیشهنگار» یا «مفهومگرا» نیز معروف است. در زبان چینی، برخی نویسههای خاص مانند آتش (火, huŏ) و آب (水, shuĭ) و چوب (木, mù) معنای ذاتی و مستقل دارند؛ اما بیشتر نویسهها تا زمانیکه با دیگر نویسهها ادغام و همنشین نشوند، معنای ذاتی و مستقلی ندارند. برای نمونه، نویسهی چینی 灵) líng) باتوجهبه همنشینیاش با نویسههای دیگر میتواند بهمعنای باهوش (机灵, jīlíng) یا روح (灵魂, línghún) باشد. حتی نویسههای موجود در اسامی خاص مانند بوستون (波士顿, bōshìdùn) یا ایالات متحده (美国, měiguó) نیز به همان معنایی نیستند که یکبار جداگانه استفاده شدند.
بنابراین، پژوهشگران مدل زبانی ERNIE را با نسخهی جدیدی از تکنیک masking آموزش دادند تا بتواند رشتهای از نویسهها را بهجای یک نویسه مخفی کند. آنها همچنین ERNIE را آموزش دادند بین رشتههای معنادار و تصادفی تفاوت قائل شود تا بتواند ترکیب نویسهی مناسب را براساس تکنیک Masking تشخیص دهد؛ درنتیجه، مدل زبانی ERNIE درک بیشتری از نحوهی رمزگذاری اطلاعات در زبان چینی و پیشبینی بسیار دقیقتری در قطعات گمشده (جای خالی در جملات) بهدست آورد. چنین دستاوردی برای اپلیکیشنهایی در حوزههایی مانند ترجمه و بازیابی اطلاعات از سند متنی مفید خواهد بود.
افزونبراین، پژوهشگران بهسرعت دریافتند دراصل این رویکرد برای زبان انگلیسی نیز عملکرد بسیار بهتری دارد؛ چراکه در زبان انگلیسی نیز مانند زبان چینی، اما بهقطع نه بهاندازهی زبان چینی، مواردی وجود دارد که همنشینی رشتهای (تعدادی) از واژگان باهم معنای متفاوت و جداگانهای از معنای تکتک واژگان انتقال میدهند. برای نمونه، با درک معنای تکتک کلمات در اسامی خاصی چون Harry Potter (هری پاتر) و عبارات و اصطلاحاتی مانند chip off the old block (به مامان یا باباش رفته) نمیتوان معنای اصلی را تجزیهوتحلیل کرد. بنابراین، برای جملهی «هری پاتر مجموعهای از رمانهای سبک خیالپردازی و فانتزی است که توسط جی.کی. رولینگ یا نوشته شده است»، مدل زبانی BERT براساس تکنیک Masking، ممکن است آن را به این صورت تحلیل کند: «[mask] پاتر مجموعهای [mask] رمانهای خیالپردازی و فانتزی [mask] توسط جی [mask] رولینگ». درحالیکه مدل زبانی ERNIE بر اساس تکنیک Masking، این جمله را به این صورت تحلیل میکند: «هری پاتر هست [mask] [mask] [mask] رمانهای فانتزی توسط [mask] [mask] [mask]». بنابراین، مشخص است که ERNIE پیشبینیهای قویتری براساس معنا بهجای استفاده از الگوهای آماری کلمات یاد گرفته است.
ایدههای متنوع
آخرین نسخهی مدل زبانی ERNIE از چندین تکنیک آموزش دیگر نیز بهرهمند شده است. بهعنوان مثال، ترتیب جملات و فواصل قرارگرفتن بین آنها (یعنی جملهی «الف» باتوجهبه معنا بعد از چند جملهی دیگر برای تکمیل معنای پاراگراف بعد از جملهی «ب» باید آورده شود) را برای درک پیشرفت منطقی پاراگراف در نظر میگیرد. از همهی اینها مهمتر، مدل زبانی ERNIE از روشی بهنام آموزش مداوم بهره میبرد که به آن امکان میدهد آموزش روی دادههای جدید و تکالیف جدید زبانی را بدون فراموشکردن مواردی فراگیرد که قبلا آموخته است. این امر به ERNIE این امکان را میدهد تا در انجام طیف وسیعی از تکالیف زبانی با گذشت زمان و صرف حداقل مداخلههای انسانی عملکرد بهتری داشته باشد.
هدف بایدو، غول موتور جستوجوی چینی، از ارتقای مدل زبانی ERNIE ارائهی نتایج جستوجوی کاربردیتر به کاربران و حذف مطالب تکراری در فید خبرنامهی خود و بهبود توانایی دستیار هوش مصنوعیاش، یعنی Xiao Du، در پاسخگویی دقیق به درخواستها است. همچنین، جدیدترین معماری مدل زبانی ERNIE در قالب مقالهای در کنفرانس سال آیندهی انجمن پیشرفتهای هوش مصنوعی ارائه خواهد شد. پژوهشگران امیدوار هستند همانگونه که تیمشان در ساخت مدل زبانی BERT گوگل موفق بوده، دیگران نیز از نتایج و دستاوردهای کار با مدل زبانی ERNIE بهرهمند شوند.
هائو تیان، معمار اصلی تحقیقات بایدو گفت:
وقتی اولینبار این کار را شروع کردیم، بهطور خاص فقط روی پیادهسازی نویسههای زبان چینی فکر میکردیم؛ اما بهسرعت دریافتیم فراتر از آن نیز اجراشدنی است.