یادگیری ماشین چگونه نحوه کار کردن با گوشی هوشمند را تغییر میدهد
تراشه گوشیهای هوشمند از روزهای ابتدایی راهی طولانی طی کرده و مشکلات بسیاری پشت سر گذاشته است. اکثریت قریب به اتفاق تلفنهای ارزانقیمت تا همین چند سال پیش دارای قدرت زیادی نبودند؛ اما گوشیهای هوشمند میانرده امروزی عملکرد خوبی مانند پرچمداران یک یا دو سال پیش دارند.
به گزارش Androidauthority، اکنون که یک تلفن هوشمند متوسط توانایی انجام کارهای عمومی روزمره را دارد، سازندگان تراشه و توسعهدهندگان اهداف بالاتری در نظر گرفتهاند. با این دیدگاه، روشن است که چرا فناوریهای جانبی مانند هوش مصنوعی و یادگیری ماشین (ML) در مرکز توجه قرار دارند؛ اما یادگیری ماشین در دستگاههای هوشمند، بهویژه برای کاربران نهایی مانند من و شما به چه معنا است؟
در گذشته نیاز بود دادههای مربوط به تسکهای یادگیری ماشین برای پردازش به فضای ابری ارسال شوند. این روش جنبههای منفی زیادی دارد، از زمان پاسخ کند گرفته تا نگرانیهای مربوط به حریم خصوصی و محدودیتهای پهنای باند، همه و همه بخشهایی از این مسئله بودند؛ اما تلفنهای هوشمند مدرن به لطف پیشرفت در طراحی تراشه و تحقیقات انجامشده در حوزه یادگیری ماشین میتوانند کاملاً آفلاین کار خود را ادامه بدهند.
برای درک پیامدهای این پیشرفت، بیایید بررسی کنیم که چگونه یادگیری ماشین نحوه استفاده روزانه از تلفنهای هوشمند را تغییر داده است.
ورود یادگیری ماشین به دستگاههای هوشمند؛ بهبود عکاسی و پیشبینی متن
در اواسط دههی ۲۰۱۰ شاهد مسابقهای در سطح صنعتی برای بهبود کیفیت تصویر دوربین بودیم که سال به سال شدیدتر میشد. این مسئله به نوبه خود، محرک اصلی برای پذیرش یادگیری ماشین تلقی میشود. تولیدکنندگان دریافتند که این فناوری میتواند به کاهش شکاف بین تلفن هوشمند و دوربین تخصصی کمک کند؛ حتی اگر سختافزار پایینتری برای بوت شدن داشته باشد.
به همین منظور، تقریباً همه شرکتهای بزرگ فناوری، عملکرد تراشههای خود را در کارهای مربوط به یادگیری ماشین بهبود بخشیدند. تا سال ۲۰۱۷ کوالکام، گوگل، اپل و هواوی همه تلفنهای هوشمند با شتابدهندهی اختصاصی یادگیری ماشین خود را عرضه کردند. طی سالیان گذشته، دوربینهای گوشی هوشمند بهویژه از نظر دامنه دینامیک، کاهش نویز و عکاسی در نور کم بسیار بهبود یافتهاند.
اخیراً تولیدکنندگانی مانند سامسونگ و شیائومی موارد استفاده جدیدتری برای این فناوری پیدا کردهاند. بهعنوان مثال ویژگی Single Take سابق، اکنون از یادگیری ماشین برای ایجاد خودکار آلبومی با کیفیت بالا از یک ویدئو کلیپ ۱۵ ثانیهای استفاده میکند و استفاده شیائومی از این فناوری از تشخیص اشیا موجود در کادر تا جایگزینی کل آسمان پیشرفت کرده است.
اکنون بسیاری از سازندههای تلفن هوشمند اندرویدی از یادگیری ماشین روی دستگاه خود برای تگ کردن خودکار چهرهها و اشیا در گالری گوشی استفاده میکنند؛ این ویژگی قبلاً فقط توسط سرویسهای مبتنی بر فضای ابری مانند گوگل فوتوز (Google Photos) ارائه میشد.
البته کارایی یادگیری ماشین در تلفن هوشمند بسیار فراتر از عکاسی است و اپلیکیشنهای ویرایش متن که از این فناوری استفاده میکنند، سالها است وجود دارند.
Swiftkey شاید اولین اپی بود که از شبکه عصبی برای پیشبینی بهتر کلمات صفحهکلید در سال ۲۰۱۵ استفاده کرد. شرکت سازنده آن ادعا میکند مدل خود را با میلیونها جمله آموزش داده است تا رابطه بین کلمات مختلف را بهتر درک کند.
چند سال بعد Android Wear 2.0 که اکنون به Wear OS شهرت دارد، توانایی پیشبینی پاسخهای مربوط به پیامهای دریافت شده را پیدا کرد و یکی دیگر از ویژگیهای بارز یادگیری ماشین مشخص شد. گوگل بعداً این ویژگی را Smart Reply لقب داد و آن را وارد اندروید ۱۰ کرد. بهاحتمال زیاد تاکنون بارها از این قابلیت هنگام کار با دستگاه خود استفاده کردهاید.
صدا و واقعیت افزوده؛ مسیری سختتر برای ادامه
یادگیری ماشین گوشیهای هوشمند در حوزه پیشبینی متن و عکاسی به بلوغ رسیده است؛ اما تشخیص صدا و دید رایانهای (computer vision) دو زمینهای تلقی میشوند که هنوز هر چند ماه یکبار شاهد پیشرفتهای چشمگیری هستند.
بهعنوان مثال ویژگی ترجمه فوری دوربین گوگل را در نظر بگیرید که در لحظه، متن خارجی را بهصورت مستقیم ترجمه میکند و به کاربر نشان میدهد. حتی اگر نتایج به اندازه معادل آنلاین دقیق نباشد، این ویژگی میتواند برای مسافرانی که زبان مقصد سفر خود را بلد نیستند کارایی بسیاری داشته باشد.
ردیابی حرکات بدن با کیفیت بالا یکی دیگر از ویژگیهای آیندهنگرانه واقعیت افزوده است که میتوان با یادگیری ماشین به آن دست یافت. قابلیت Air Motion گوشی هوشمند LG G8 را بینهایت هوشمندانهتر و برای کاربردهای بزرگتری مانند ردیابی تمرینات ورزشی یا حتی تفسیر زبان اشاره تصور کنید.
در بخش گفتار، قابلیت تشخیص صدا و دیکته کردن بیش از یک دهه است که در حال پیشرفت هستند؛ اما در سال ۲۰۱۹ تلفنهای هوشمند توانستند این کارها را کاملا بهصورت آفلاین انجام بدهند. برای بررسی این موضوع، اپلیکیشن Google Recorder را اجرا کنید که از فناوری یادگیری ماشین روی دستگاه برای رونویسی گفتار در لحظه و بهصورت خودکار استفاده میکند. مکالمه به شکل متن قابل ویرایش ذخیره میشود و میتوان آن را جستوجو کرد؛ قابلیتی که برای روزنامهنگاران و دانشجویان بسیار مفید و کارآمد است.
همین فناوری قابلیت Live Caption را نیز ارائه میدهد. این ویژگی در اندروید ۱۰ و بالاتر بهطور خودکار برای هر فایلی که در تلفن شما پخش میشود زیرنویس تولید میکند. اگر میخواهید محتوای یک کلیپ صوتی را در محیطی پرسروصدا رمزگشایی کنید، این قابلیت به کمک شما میآید.
این قابلیتها به خودی خود جذاب و کاربردی هستند؛ اما روشهای مختلفی برای پیشرفتشان در آینده وجود دارد. بهعنوان مثال، بهبود ویژگی تشخیص صدا میتواند تعامل سریعتر با دستیارهای مجازی را حتی برای کسانی لهجههای غیر معمول دارند، امکانپذیر کند. دستیار گوگل توانایی پردازش دستورهای صوتی دارد؛ اما این عملکرد متأسفانه منحصر به خط تولید پیکسل است. البته هنوز میتوان با وجود چنین مثالی، نگاهی کلی به فناوری آینده انداخت.
شخصیسازی؛ مرز بعدی برای یادگیری ماشین در دستگاه
اکثریت قریب به اتفاق برنامههای یادگیری ماشین امروزی به مدلهای از قبل آموزشدیده متکی هستند که زودتر از موعد روی سختافزارهای قدرتمند تولید میشوند. استنباط راه حل توسط چنین مدل از قبل آموزشدیدهای (مانند پاسخ هوشمند متنی در اندروید) تنها چند میلیثانیه طول میکشد.
در حال حاضر تنها یک مدل واحد توسط توسعهدهنده آموزش داده و در تمام تلفنهای مورد نیاز توزیع میشود؛ اما این رویکرد که متناسب همه است، تنظیمات هر کاربر را بهصورت شخصی در نظر نمیگیرد. همچنین نمیتوان با دادههای جدید جمعآوریشده در طول زمان آن را بهصورت تکی بهروزرسانی کرد. در نتیجه اکثر مدلها نسبتاً ثابت هستند و تنها گاهی بهروز میشوند.
حل این مشکلات مستلزم تغییر روند آموزش مدلها از فضای ابری به تلفنهای هوشمند شخصی است؛ با توجه به اختلاف عملکرد این دو پلتفرم، پس از تغییر فضای آموزش شاهد اتفاقات بسیار جذابی خواهیم بود. برای مثال، انجام چنین کاری اپلیکیشن صفحهکلید را قادر میسازد پیشبینیهای خود را متناسب با سبک تایپ شما تنظیم کند. حتی میتوان انتظارات بیشتری از آن داشت؛ فرض کنید یادگیری ماشین کیبورد دستگاه میتواند بر اساس روابط شما با افراد دیگر کلمات پیشنهادی خود را هنگام چت ارائه کند.
در حال حاضر Gboard گوگل از آموزش درون دستگاهی و مبتنی بر فضای ابری بهصورت ترکیبی برای بهبود کیفیت پیشبینیها برای همه کاربران استفاده میکند؛ اما این روش ترکیبی محدودیتهایی دارد. بهعنوان مثال، Gboard بر اساس عادات فردی و گفتوگوهای گذشته، کلمه احتمالی بعدی شما را پیشبینی میکند و نمیتواند برای کل جمله این کار را انجام بدهد.
این نوع آموزشهای شخصی کاملاً باید روی دستگاه انجام شود؛ زیرا پیامدهای ارسال اطلاعات حساس کاربر به فضای ابری، فاجعهبار است. اپل در معرفی CoreML 3 در سال ۲۰۱۹، این امر را تأیید کرد که به توسعهدهندگان اجازه میدهد برای اولین بار مدلهای موجود را با دادههای جدید آموزش بدهند. البته حتی در این شرایط نیز مدلها ابتدا باید با سختافزارهای قوی آموزش میدیدند سپس به توسعهدهندگان سپرده میشدند.
در اندروید میتوان چنین شیوه آموزشی را در ویژگی روشنایی انطباقی (Adaptive brightness) به بهترین شکل مشاهده کرد. گوگل از زمان اندروید پای از یادگیری ماشین برای «مشاهده تعاملات کاربر با اسلایدر روشنایی صفحه» به منظور آموزش دوباره دستگاه برای تولید مدلی متناسب با تنظیمات هر فرد استفاده میکند.
گوگل ادعا میکرد با فعال کردن این ویژگی، در توانایی اندروید برای پیشبینی روشنایی صفحهنمایش و تنها طی یک هفته تعامل عادی کاربر با گوشی هوشمند، شاهد بهبود قابل توجهی بوده است. این قابلیت میتواند برای افرادی که دوست دارند نور صفحه دستگاه آنها با محیط سازگار باشد، کارایی زیادی دارد.
شاید از خود بپرسید چرا یادگیری ماشین تنها به چند بخش محدود شده است؟ پاسخ واضح است، تکنیکهای آموزشی یا الگوریتمهای طراحیشده زیادی برای استفاده در گوشیهای هوشمند وجود ندارد.
این واقعیت ناخوشایند یکشبه تغییر نخواهد کرد؛ اما دلایل مختلفی وجود دارد که میتوان به دهه آینده یادگیری ماشین در تلفن همراه خوشبین بود. با توجه به اینکه غولهای فناوری و توسعهدهندگان هر دو روی روشهای بهبود تجربه و حریم خصوصی کاربر تمرکز دارند، این فرایند به روشهای جدید و هیجانانگیزی ادامه خواهد یافت. شاید پس از آن بالاخره بتوانیم تلفنهای خود را کاملا «هوشمند» بدانیم.