هوش مصنوعی شناسایی دست خط GBoard اکنون ۴۰ درصد خطای کمتری دارد
گوگل درحال ارتقای سیستم تشخیص دستخط در اپلیکیشن صفحهکلید جیبورد است. جیبورد هماکنون برای دو سیستمعامل موبایلی آیاواس و اندروید ارائه شده و بیش از ۵۰۰ زبان دنیا را پشتیبانی میکند. حالا نسخهی جدید این کیبورد با بهره بردن از هوش مصنوعی سریعتر نسبت به قبل بین ۲۰ تا ۴۰ درصد خطای کمتری در تشخیص دستخط کاربر دارد. در نسخههای قبلی این صفحهکلید از مدلهای یادگیری ماشینی برای تشخیص دستخط استفاده شده بود. این جزئیات توسط محققانی که در بخش هوش مصنوعی گوگل کار میکنند، در قالب یک پست در بلاگ این شرکت شرح شده است.
ساندرو فوز و پِدرو گونتی از مهندسان ارشد نرمافزاری گوگل میگویند:
فرآیندهای موجود در یادگیری ماشینی باعث شده تا مدلهای معماری و روشهای آموزشی جدیدی در دسترس قرار گیرد و این مورد به ما امکان میدهد تا بهجای استفاده از یک مدل که بهعنوان ورودی کلی عمل میکند، در راهکارهای اولیهمان تجدیدنظر کنیم.در ابتدای سال جاری، ما مدلهای جدید را برای همهی زبانهای مبتنی بر لاتین در اپلیکیشن جیبورد معرفی کردیم.
همانطور که فوز و گونتی توضیح دادهاند، اکثر سرویسهای تشخیص دستخط از نقاط لمسی برای شناسایی و انجام عملیات روی کاراکترهای دستنویسشده استفاده میکنند. جیبورد ابتدا مختصات نقاط لمسشده را به حالت عادی درآورده تا اطمینان حاصل کند که این نقاط با نرخ نمونهسازی lojgt و دقت لازم روی دستگاه باقی میماند و سپس آنها را به یک توالی از منحیهای مکعبی Bézier تبدیل میکند. Bézier منحنیهای پارامتریکی هستند که استفاده از آنها در گرافیک رایانهای رایج است. بهگفتهی فوز و گونتی، مزیت اصلی توالیهای مذکور، کوچکتر بودن آنها از توالی پایهایِ نقاط ورودی است. درنهایت هر منحنی با یک (بیان متغیرها و ضرایب) تعریف چندجملهای توسط نقاط شروع، نقاط پایان و نقاط کنترل نمایش داده میشود. بهعنوان مثال کلمهی «GO» شاید شامل ۱۸۶ نقطه باشد که با استفاده از توالی چهار منحنی (و دو نقطه کنترل) Bézier برای حرف "G" و نیز سه توالی منحنی برای حرف «O» نمایش داده میشود.
این توالیها بهعنوان ورودی به یک شبکه عصبی ارسال میشوند تا روش شناساسی کاراکترهای دستنویس را بیاموزد و بهطور دقیقتر یک نسخهی دوطرفه از شبکههای عصبی شبه تجربی (QRNN) و یک شبکه با قابلیت موازیسازی بهینه و بنابراین عملکرد خوب در پیشبینی، بهدست خواهد آمد. مهمتر اینکه QRNN تعداد وزنها (دوام ارتباطات بین توابع ریاضی یا گرهها) را نگه میدارد و همین مورد باعث میشود تا شبکه بهطور نسبی کوچکتر و حجم فایل کاهش یابد.
اما مدل هوش مصنوعی چگونه میتواند منحنیها را درک کند؟ با ایجاد یک ماتریکس از ستونها و سطرها در جایی که هر ستون با یک منحنی ورودی مطابقت دارد و هر سطر نیز با یکی از حروف الفبا منطبق است. این خروجی شبکه با مدل زبان مبتنی بر کاراکتر ترکیب شده و دو نتیجه در پی خواهد داشت؛ نتیجه مثبت اینکه توالی مناسب کاراکترهای رایج در یک زبان ایجاد میشوند و نتیجه منفی اینکه یکسری توالیهای غیررایج نیز ایجاد خواهد شد. توالیهای بهدستآمده از نقاط لمسی هم بهطور جداگانه به یک ترکیب کوتاهترِ مرتبط و نهایتا به یک منحنی تبدیل میشود. در پایان تشخیصدهندهی مبتنی بر QRNN با دریافت توالی منحیها، یکسری توالی از احتمالات کاراکترها بهعنوان خروجی ارائه میکند.
سیستم جدید تشخیص دستخط کیبورد جیبورد گوگل یک شاهکار است که با تبدیل مدلهای شناسایی (که در فرمورک یادگیری ماشینی TensorFlow گوگل آموزش دیده) به مدلهای سبک TensorFlow بهدست آمده است. استفاده از نسخهی لایت بهجای نسخهی کامل TensorFlow به تیم توسعهدهنده سیستم مذکور اجازه میدهد تا عملیات مورد نظر را در زمان کمتری اجرا کرده و علاوهبراین میزان استفاده از حافظه را توسط جیبورد کاهش دهند. فوز و گونتی در بخش دیگری از پست بلاگی خود میگویند:
ما در تلاش هستیم تا شناسایی زبانهای مبتنی بر لاتین را همواره بهبود دهیم. تیم تشخیص دستخط قبلا برای اضافه کردن مدلهای تشخیص دستخط در همهی زبانهایی که در کیبورد جیبورد پشتیبانی میکنیم، راه سختی را پیموده است.
نظر شما در مورد سیستم جدید تشخیص دستخط با استفاده از هوش مصنوعی چیست؟ لطفا دیدگاه خود را با زومیت و سایر کاربران به اشتراک بگذازید.