آیا دستیارهای صوتی مجازی به اندازه کافی هوشمند شدهاند
در سپتامبر ۲۰۱۸، آمازون با برگزاری رویدادی مطبوعاتی در ساختمان گنبدیشکل خود در سیاتل، طیف متنوعی از محصولات سختافزاری جدیدش را معرفی کرد که برای کار با دستیار صوتی الکسا طراحی شدهاند. آمازون همچنین در این مراسم برخی قابلیتهای تازه را برای الکسا معرفی کرد که در اصل تلاشهای این شرکت را برای ارتقای حافظهی دستیار صوتیاش نشان میدادند. در حین ارائهی تواناییهای تازهی الکسا، دیو لیمپ، مدیر دستگاهها و سرویسهای آمازون، فرمانی را مبنی بر پخش لالایی برای الکسا زمزمه کرد و الکسا نیز در مقابل با صدای آهسته به فرمان پاسخ داد؛ لحظهای که بدون شک درنظر افراد بدبین به هوش مصنوعی، ترسناک بهنظر میآمد.
دستیارهای مجازی مبتنی بر صوت نظیر الکسا و اسپیکرهایی که آنها درونشان زندگی میکنند دیگر تازگی ندارند. براساس یک برآورد، در سال ۲۰۱۸ صد میلیون دستگاه اسپیکر هوشمند در خانههای سرتاسر جهان مستقر شدند؛ اما در سالی که گذشت، شرکتهای سازندهی محصولات مبتنی بر صوت تلاش کردند تا این دستگاهها را به گجتهایی حساس تبدیل کنند. الکسا اکنون میتواند «شهودی» انسانگونه داشته باشد و رفتار ما را پیشبینی کند و گوگل اسیستنت نیز این قابلیت را دارد که بدون نیاز به تکرار هر بارهی واژهای مشخص، بیدار بماند و گفتگویی را با افراد پیش ببرد. اگر رایانش محدودهای – مفهومی که در آن کامپیوترها در پیرامون ما حضور دارند و میتوانند نیازهای ما را احساس کنند و به آنها پاسخ دهند – چشماندازی است که اهالی فناوری برای آیندهی ما ترسیم کردهاند، پس ۲۰۱۸ را میتوان صرفا سال تمرکز بیشتر بر این رویا دانست؛ اما نه با سروصدای بلند، بلکه آهسته و نجواگونه.
البته، تکامل دستیارهای صوتی با سرعت پایینی پیش میرود. صحبت با این دستیارها نظیر الکسا، گوگل اسیستنت، سیری اپل و کورتانای مایکروسافت همچنان مستلزم ادای جملات بهخصوصی است که باعث میشود هوش آنها چندان هم پیشرفته بهنظر نرسد. بررسی اخیری از مؤسسهی پژوهشی IDC نشان داد که ۵۲.۲ درصد از افرادی که در سال گذشته یک اسپیکر هوشمند را مورد استفاده قرار دادهاند، اعلام کردند پلتفرم صوتیشان «صدای آنها را بهراحتی میشوند»؛ بدین معنی که تقریبا نیمی از پاسخدهندگان در برقراری ارتباط با اسپیکرهای هوشمند با دشواری مواجه بودهاند.
آدام رایت، تحلیلگر ارشد پژوهشی از مؤسسهی IDC میگوید:
هنوز اقدامات فراوانی باید انجام شود. برخلاف آنچه جو تبلیغاتی به ما القا کرده است، این پلتفرمها در حال تقلا برای آزادی از قیدوبند الزام کاربران به ادای فرمانهای صوتی ثابت و کامپیوترمحور هستند.
بااینحال، شکی نیست که دستیارهای صوتی در آشپزخانهها، خودروها، ادارات و هرکجا که گوشیهای هوشمندمان را میبریم، به قدر کافی پاسخگوی ما هستند. ویژگی نجوای الکسا احتمالا ساده بهنظر میرسد؛ اما تعبیهی چنین قابلیتی درون یک دستیار صوتی با چالشهایی همراه است؛ زیرا براساس مقالهای که مهندسان آمازون منتشر کردهاند، نجوا کردن معمولا مستلزم ارتعاش پردههای صوتی نیست. الکسا برای کسب این توانایی باید با اصوات ضبطشده از تعاملات انسانی با میکروفونهای میدان دور و کنترل صوتی در هر دو حالت نجوا و آواگری معمول آموزش داده میشد.
مسئله صرفا این نیست که الکسا اکنون میتواند نجوا کند؛ بلکه این دستیار صوتی میتواند بهصورت نجواگونه پاسخ دهد و تلنگری به آن آیندهی رایانش محدودهای بزند. درست همانطور که هنگام آغاز صحبت با دوستتان بهصورت آهسته یا مخفیانه از آنسوی میز، احتمال دارد که او نیز صدایش را پایین بیاورد، الکسا هم از تن صدای شما تقلید خواهد کرد. الکسا همچنین برای برخورداری از پیشبینیهای انسانگونه ارتقا یافته است؛ بدین صورت که اگر خاموش یا روشن کردن چراغ یا قفل کردن در اقداماتی باشند که بهصورت معمول انجام میدهید، وقتی به این دستیار صوتی بگویید به رختخواب میروم یا خانه را ترک میکنم، الکسا انجام آن کارها را به شما پیشنهاد میدهد.
در ماه اکتبر، گوگل با هدف بهبود تواناییهای گفتگوی دستیار صوتیاش، بهروزرسانی تازهای را برای آن معرفی کرد که با تمام گوشیهای هوشمند و دستگاههای گوگل هوم سازگار است. تا به حال چند بار توانستهاید یک سؤال همچون «قد لبران جیمز (بازیکن بسکتبال) چند است» را از گوگل اسیستنت بپرسید و سپس بدون آنکه مجبور به صدا زدن مجدد این دستیار صوتی شوید، بلافاصله سؤال مرتبط دیگری را دربارهی لبران جیمز از او بپرسید؟ انجام این کار قبلا امکانپذیر نبود؛ اما اکنون گوگل با بهروزرسانی یادشده حافظهی گوگل اسیستنت را افزایش داده است. هماکنون پس از آنکه از گوگل اسیستنت سؤالی بپرسید یا به آن فرمانی بدهید، این دستیار صوتی به مدت ۸ ثانیه همچنان آمادهی شنیدن خواهد بود؛ در نتیجه، دیگر نیازی به بازگویی مکرر «اوکی گوگل» وجود ندارد. این قابلیت به ویژگی اخیرا منتشرشدهی آمازون به نام «پیگیری» شباهت دارد. کاربران با بهرهگیری از این ویژگی میتوانند وضعیت آبوهوای یک شهر بهخصوص را جویا شوند و سپس بدون اشارهی مجدد به نام همان شهر، دربارهی رستورانی داخل آن سؤال دیگری مطرح کنند.
گوگل همچنین دستیار صوتیاش را قادر ساخته است که برخی از امور روزمره را برای کاربران انجام دهد؛ نظیر رونوشت تماسهای ورودی روی صفحهی گوشی (Screen Call) یا برقراری گفتگوهای تلفنی با فردی واقعی بهمنظور رزرو میز در رستوران یا وقت آرایشگاه.
در طرف دیگر، مایکروسافت نیز سال گذشته برای بهبود تواناییهای گفتگوی کورتانا، دستیار صوتیاش (که در کامپیوترهای شخصی و گوشیهای هوشمند یافت میشود)، اقداماتی انجام داد. همچنین، بهروزرسانیهای سیری در سال ۲۰۱۸ غالبا حول محور میانبرها بود؛ قابلیتی که به کاربران امکان میدهد مجموعهای از دستورها را روی آیفون یا آیپد خود گروهبندی و با فرمانی کوتاه آنها را ارسال کنند. علاوهبر این، اپل، پیشنهادها اسپاتلایت مبتنی بر سیری را نیز بهبود داده است؛ قابلیتی که با هدف تحلیل عادات کاربر در طول زمان و پیشنهاد انجام امور مختلف روی گوشی طراحی شده است، بهبودهای سیری تغییراتی گفتگومحور بهشمار نمیروند؛ بلکه آگاهی محدودهای این دستیار صوتی را از آنچه کاربر باید انجام دهند، ارتقا دادهاند.
هرکدام از این غولهای فناوری برای بهتصویر کشیدن آنچه این هوشهای مصنوعی صوتی باید انجام دهند، بر چشماندازهای مختلفی تمرکز کردهاند و با این کار، دستیارهای صوتیشان را درون نقشهای ازپیشتعریفشدهای فرو بردهاند. بهعنوان مثال، الکسا سریعترین زمانسنج آشپزخانهی دنیا محسوب میشود؛ گوگل اسیستنت بهمقدار ترسناکی دربارهی شما میداند؛ کورتانا دوست خوبی در دنیای فناوری اطلاعات است که به عیبیابی در امور مختلف به شما کمک میکند و سیری دستیار اجرایی روی آیفون شما بهحساب میآید.
از بین تمام این سرویسها، همانطور که فناوری تشخیص صدا در طول زمان بهبود یافته، نرخ موفقیت دستیارهای مجازی نیز برای ارائهی پاسخ واقعی افزایش یافته است. این موفقیت تاحدودی مرهون پیشرفتهای علمی در هوش مصنوعی و بخشی بهدلیل برد گستردهی آیفون و محبوبیت روبهرشد محصولاتی نظیر آمازون اکو و گوگل هوم است که به ایجاد یک حلقهی عظیم بازخورد کمک کردهاند. هرچه دستگاههای هوشمند بیشتری به فروش بروند، شرکتهای فناوری دادههای مصرفی بیشتری برای بهبود فناوری صوتیشان در اختیار دارند و هرچه سرویسهای کنترل صوتی بهبود بیشتری یابند، گجتها به محصولاتی تاثیرگذارتر تبدیل میشوند.
اما دستیارهای مجازی خوب یا بد همچنان مرتکب لغزش و خطا میشوند. با وجود تلاشهای انجامشده برای شبیهسازی این دستیارها به انسان، همچنان لازم است که ما انسانهای واقعی همچون روباتها با آنها گفتوگو کنیم. اساسا، آنها گاهی اوقات با وجود استفاده از پردازش پیشرفتهی زبان طبیعی، در درک زبان طبیعی ناکام میمانند. رایت میگوید:
برای یافتن شهادت کاربران به تداوم نارساییهای صوتی و اینکه گفتوگو با دستگاههایشان دشوار است یا آنها به حرفشان گوش نمیدهند، نیازی نیست که خیلی به عقب برگردید.
احتمالا چندان اشکالی ندارد اگر الکسا یا گوگل اسیستنت، عنوان آهنگی را که خواستهاید پخش کنند، اشتباه متوجه شوند یا وقتی در خودروی در حال حرکتی هستید، سیری نتواند مناسبترین پمپ بنزین را برایتان پیدا کند. اما وقتی در حوزهای نظیر سلامت در حال استفاده از این دستیارهای گفتوگو هستید، کارکرد صحیح آنها اهمیت بالایی دارد. احتمالا بهطرز قابل انتظاری مشخص شده است که وقتی سؤال پرسیدهشده دربارهی نارسایی قلب یا تمرینات ورزشی برای نجاتیافتگان از سرطان باشد، بیثباتیهای دستیارهای صوتی چندان خطرناک محسوب نمیشود. در سپتامبر سال گذشته، گزارشی منتشرشده در ژورنال Medical Internet Research با اعلام زنگ خطر دربارهی دستیارهای صوتی، اعلام کرد که آنها خیلی اوقات سؤالهای مرتبط با سلامتی را نفهمیدهاند و اینکه نزدیک به ۳۰ درصد از پاسخهای ارائهشده از جانب دستیارها، در صورت عمل به آنها، میتوانند آسیبزا باشند.
البته، کنترل صوتی درست به همان اندازه که لحظات آسودهای را رقم میزند، مشکلات اخلاقی را نیز بههمراه دارد. همانطور که ما از به اشتراک گذاشتهشدن دادههایمان بهطرز نابکارانه توسط برخی از بزرگترین شرکتهای فناوری دنیا آگاه میشویم، دستیارهای مجازی نیز وارد زندگیهایمان میشوند. برای سالها، ما بهصورت فعالانه در حال تایپ سؤالهای خرید، مقاصد آتی، علایق رمانتیک و افکار درونیمان درون کامپیوترها بودهایم، اکنون ما صرفا داریم آنها را با صدای بلند فریاد میزنیم و سیستمهای کنترل صوتی از آمازون، گوگل، اپل، مایکروسافت و حتی فیسبوک در حال مکیدن صحبتهای ما هستند. برای اطمینان میتوانید این موضوع را از زوج اهل پورتلندی بپرسید که گفتوگوهای شخصیشان ابتدای سال گذشته توسط الکسا ضبط شد.
رایت بر این باور نیست که نگرانیهای حریم شخصی میتوانند بهنحو قابلتوجه نقش بازدارنده را برای کاربران فعلی یا بالقوهی دستیارهای صوتی ایفا کنند. وی معتقد است مشتریان خشنود تمایل دارند که برای بهدست آوردن قدری آسودگی، حریم شخصی را کنار بگذارند. همچنین براساس پژوهش IDC، حریم شخصی حتی بازدارندهی اصلی در استفاده از یک دستیار هوشمند محسوب نمیشود؛ زیرا اکثریت پاسخدهندگان (بیش از ۳۱ درصد) گفتند دستیارهای مجازی صرفا «هیچ کاربردی برایشان ندارند».
شرکتهای فناوری همچنان به تلاشهای بیوقفهی خود برای قانع کردن ما نسبت به کاربردیبودن دستیارهای صوتی ادامه خواهند داد و ظاهرا در سال جدید میلادی نیز به اقدامات خود در این راستا بهمراتب شدت خواهند داد. احتمالا داستان از این قرار خواهد بود که وقتی این دستیارها کاربردیتر شوند، ما شاید متوجه این تکامل آنها نشویم. در زمانی نامعلوم در سال پیشرو ممکن است صرفا برای شنیدن پاسخ از دستیاری مجازی بهجای انسانی واقعی، با یکی از دوستانتان تماس بگیرید یا بهمنظور رزرو اتاق برای خودتان، تحت نقاب تعامل انسان با انسان از همان دستیار مجازی (گوگل اسیستنت) استفاده کنید. گوگل در سال ۲۰۱۸ چشماندازی از این آینده را به ما نشان داد و اکنون درخت کاشتهشده بهدست این شرکتها در حال به بارنشستن است. شما احتمالا گفتگویی را با دستیاری مجازیتان آغاز میکنید، سپس پس از انجام مکثهای انسانی بسیار طولانی، صحبتتان را بدون هیچگونه لغزشی پی میگیرید.
بعدا، همان دستیار مجازی بهتان یادآوری میکند تا پیش از رفتن به رختخواب در را قفل کنید و وقتی داستانی را پیش از خواب برایتان میخواند – شاید کتابی علمی تخیلی دربارهی روباتهایی که دنیا را تحت سلطهی خود درآوردهاند – احتمالا میداند که با بهخواب رفتن شما باید تن صدایش را پایین بیاورد.
نظرات