آیا اپل امروز «سیری واقعی» را معرفی میکند؟
دوشنبه ۲۱ خرداد ۱۴۰۳ - ۱۲:۰۰مطالعه 6 دقیقهاپل هنگامی که برای اولین بار سیری را در سال ۲۰۱۱ به همراه آیفون 4S معرفی کرد، تبلیغات بسیار جذابی برای آن انجام داد تا نحوهی استفاده از این دستیار صوتی جدید را به کاربران آموزش دهد.
در یکی از این تبلیغها، زویی دشانل از آیفون خود دربارهی سفارش و تحویل سوپ گوجهفرنگی میپرسید و در تبلیغ دیگر، جان مالکوویچ از سیری تقاضای چند توصیهی اگزیستانسیالیستی میکرد! در تبلیغی دیگر که بهنوعی یادآور فیلم راننده تاکسی بود، مارتین اسکورسیزی در حالی که در صندلی عقب یکی از تاکسیهای نیویورک نشسته بود، برنامهی روزانهی خود را میچید.
اپل میگفت سیری میتواند در ایجاد یادآورها، بررسی وضعیت آبوهوا، تنظیم هشدارها و موارد دیگر به کاربر کمک کند. هدف از نمایش این تبلیغهای کموبیش اغراقآمیز این بود که سیری را بهعنوان همراه همیشگی و مفیدی معرفی کند که میتواند از پس هر کاری برآید، بدون آن که لازم باشد برنامهای را اجرا یا حتی صفحهی گوشی را لمس کنید. فقط کافی بود بگویید «Hey Siri»!
سیری برای اپل بسیار مهم بود. فیل شیلر در مراسم رونمایی آیفون 4S گفت: «سیری بهترین ویژگی آیفون جدید اپل است. متخصصان فناوری، دهها سال بود که ما را دست میانداختند و میگفتند به زودی رویای مکالمهی دوطرفه با دستگاههای دیجیتال برآورده میشود و میتوانیم از آنها بخواهیم کارهایمان را انجام دهند. اما این رویا مدتها به تعویق افتاد. تنها چیزی که ما واقعاً میخواستیم این بود که هر طور که میخواهیم با دستگاهمان صحبت کنیم و از آن اطلاعات و کمک دریافت کنیم. اپل این رویا را محقق کرده است.»
انگار اپل تصمیم گرفته بود وانمود کند سیری اصلا وجود ندارد
اما اپل هنوز این رویا را محقق نکرده است. ۱۳ سال از عرضهی سیری میگذرد و این دستیار صوتی برای اکثر مردم یا در حد تنظیمکنندهی هشدار تنزل یافته یا ویژگی بیمصرفی است که میخواهند به هر قیمتی از تعامل با آن اجتناب کنند. سیری برای بیش از یک دهه عملکرد ضعیفی داشته است، طوریکه به نظر میرسید اپل یا آن را کاملا رها کرده است یا تصمیم گرفته وانمود کند که اصلا وجود ندارد!
هفتهی پیش در زومیت، در مورد برنامههای اسرارآمیز هوش مصنوعی اپل برای سیری صحبت کردیم. اگر شایعات و گزارشهای اخیر درست باشند، امشب در WWDC 2024 ممکن است برای اولین بار با سیری واقعی یا حداقل چیزی بسیار نزدیک به آن ملاقات کنیم.
بهگفتهی ورج، اپل قصد دارد از تغییراتی اساسی برای این دستیار صوتی رونمایی کند که بدون افزودن عملکرد جدید و صرفا بهلطف مدل های زبانی بزرگ (LLM)، سیری را بسیار مطمئنتر و کارآمدتر از پیش میکند. این تغییر بهخودیخود برای سیری برد بزرگی خواهد بود، حتی اگر هیچ ویژگی جدید دیگری دریافت نکند.
احتمالا سیری برای اولینبار بتواند هر کاری که با آیفون انجام دهید، برایتان انجام دهد
بااینحال، به نظر میرسد مسئله فراتر از اینها است و اپل در حال کار روی نسخهای از سیری است که داخل برنامهها ادغام میشود و حتی ممکن است بتواند از طرف کاربر تمام برنامهها را باز کند و به همهجای آنها سرک بکشد. بدینترتیب حداقل روی کاغذ، برای اواین بار سیری میتواند هر کاری که خودتان میتوانید با آیفون انجام دهید، برایتان انجام دهد.
این همان هدفی است که اپل از ابتدای خلق سیری برای آن متصور بود، اما تاکنون به آن نرسیده است. این چشمانداز را میتوان در تبلیغات آیفون 4S دید. آنجا افراد مشهور از سیری کمک میخواستند، اما سیری تقریباً هرگز کار را تمام نمیکرد. این دستیار صوتی فهرستی از رستورانها را به دشانل ارائه میداد که تحویل غذا در محل داشتند، اما پیشنهادی برای ثبت سفارش یا نمایش منوی رستوران به او نمیداد.
زویی دشانل در تبلیغ اپل برای سیری و آیفون 4S
یا مثلا سیری به اسکورسیزی میگفت که جلوتر ترافیک وجود دارد، اما پیشنهادی برای تغییر مسیر نمیداد و انتظار میرفت که بداند او به موقع به جلسهی کاریاش نخواهد رسید. این دستیار صوتی به مالکوویچ میگفت که با مردم خوب رفتار کند و کتابهای خوب بخواند، اما هیچ کمک عملی به او ارائه نکرد و کتاب خوبی هم معرفی نکرد. در واقع تا اینجای کار، استفاده از سیری مانند داشتن یک دستیار مجازی است که کارش فقط جستجوی سوالات شما در گوگل است و نه بیشتر!
کاربران بهتدریج از سیری ناامید شدند
کاربران بهتدریج از سیری ناامید شدند. بااینکه تمام چیزهایی که برای کارآمدشدن لازم دارد، همگی در آیفون حضور دارند، معلوم نیست که چرا این دستیار صوتی نمیتواند از آنها استفاده کند. مثلا وقتی کاربر پیتزا میخواهد، چرا سیری نمیتواند ایمیل او را برای مشاهدهی رسید آخرین سفارش بررسی کند و پس از باز کردن برنامهی DoorDash، همان سفارش قبلی را وارد کند و بهای آن را نیز با استفاده از یکی از کارتهای موجود در کیف پول اپل بپردازد؟
یا اگر کاربری به اندازهی اسکورسیزی پرمشغله باشد، سیری میتواند با استفاده از لیست مخاطبین، اسلک و ایمیل، بارهای بزرگی را از دوش او بردارد. در واقع اگر این دستیار صوتی میتوانست به اندازهی یکی از ابزارهای دسترسی ازراهدور مانند برنامهی AnyDesk، گوشی کاربر را کنترل کند، قواعد بازی به کلی عوض میشد.
دو دلیل برای عقبماندگی سیری و شکوفانشدن پتانسیلهایش وجود دارد؛ اولین مورد بدیهی است: فناوری در آن زمان به اندازهی کافی پیشرفت نکرده بود. اگر تاکنون از سیری استفاده کرده باشید، خوب میدانید که چقدر نامها را اشتباه میشنود، دستورات را اشتباه میفهمد و گاهی حتی در پاسخ به سادهترین درخواستها مثل پخش پادکست، فورا به صفحهی جستجوی گوگل میرود و به خودش زحمت پخش پادکست را نمیدهد!
اینجا است که مدلهای زبان بزرگ هیجانانگیز وارد بازی میشوند و امید به بهبود سیری را در ما زنده میکنند؛ چرا که دیدهایم ابزارهای تبدیل گفتار به متن همچون Whisper با استفاده از LLMها چقدر بهتر شدهاند و این مدلها چقدر میتوانند برنامهها را در درک صحیح زبان یاری کنند. این مدلها اگرچه کامل نیستند، نسبتبه آنچه که قبلاً در دستیارهای صوتی تجربه کردهایم، پیشرفتهای بزرگی محسوب میشوند. به همین دلیل است که آمازون، الکسا را به سمت LLMها سوق میدهد و گوگل نیز دستیار صوتی خود را به هوش مصنوعی Gemini مجهز میکند.
شرکتها دارند دستیارهای صوتی خود را به مدلهای بزرگ زبانی مجهز میکنند
دلیل دوم ضعف طولانیمدت سیری این است که نه اپل و نه توسعهدهندگان دیگر نمیدانستند که یک دستیار صوتی باید چگونه باشد. کاربران چگونه باید بدانند که سیری از عهدهی کدام وظایف برمیآید و چگونه باید از آن سوال بپرسند و توسعهدهندگان چگونه قرار است سیری را در برنامهها ادغام کنند؟
مارتین اسکورسیزی در تبلیغ اپل برای سیری و آیفون 4S
در حال حاضر، اگر بخواهید کاری را به برنامهی فهرست کارهای خود اضافه کنید، سیری حتی نمیتواند تشخیص دهد که از کدام برنامه استفاده میکنید! شما باید درخواست خود را اینگونه مطرح کنید: «هی سیری، به من در Todolist یادآوری کن که به چمنها آب بدهم» که جملهی عجیبی است و تنها نیمی از موارد کار میکند. اگر بخواهید یک اقدام چند مرحلهای در آیفون ایجاد کنید، تنها راه پیشرویتان استفاده از برنامهی Shortcuts است که اگرچه ابزاری قدرتمند است، بهقدری پیچیده است که اکثر افراد حوصلهی سروکلهزدن با آن را ندارند.
هوش مصنوعی ممکن است به اپل فرصتی برای حل مشکلات سیری را بدهد. محققان اپل چند ماه پیش در مقالهای، سیستمی به نام Ferret-UI را معرفی کردند که از یک مدل هوش مصنوعی برای درک جزئیات کوچک تصویر روی صفحهنمایش استفاده میکند. آنها حتی نحوهی عملکرد یک برنامه با استفاده از سیری را توضیح میدهند و میگویند: «GPT-4 محصول OpenAI در درک کلی تصاویر عملکرد خوبی دارد، اما Ferret قادر به درک مناطق کوچک و جزئیات تصویر است. این در عمل بدان معنا است که یک سیستم میگوید: «این برنامهی Ticketmaster است!» و سیستم دوم میگوید: «بله، و دکمهی خرید اینجا است.»
اپل: GPT-4 در درک کلی تصاویر خوبی است، اما Ferret در درک مناطق کوچک و جزئیات تصویر
البته کار عاقلانه آن است که به تمام ادعاهای مطرح شده از سوی اپل در مورد سیری با دیدهی شک و تردید بنگریم. فراموش نکنید که ۱۳ سال پیش فیل شیلر روی صحنه ایستاد و با غرور اعلام کرد که اپل دستیار صوتی بهتری ساخته است، اما گفتهاش واقعیت نداشت. این بزرگنمایی ممکن است امروز نیز تکرار شود، زیرا هیاهوی هوش مصنوعی همچنان بسیار سریعتر از خود این فناوری حرکت میکند.
شرکتهای هیومین، گوگل، ربیت و دیگران همگی روی ایدههای مشابهی کار میکنند و دیدیم که گجتهایی مثل AI Pin و Rabbit R1 چقدر ناامیدکننده ظاهر شدند. تابستان امسال قرار است صدها بار کلمهی «ایجنت» (Agent) را در محافل هوش مصنوعی بشنویم و شاهد بزرگنمایی شرکتها در معرفی دستیارها و چتباتهایشان باشیم. ایندرحالی است که تاکنون هیچکدام نتوانستهاند آمادگی خود را با ارائهی محصولی بینقص نشان دهند.
اگر اپل بالاخره از خاکستر برخاسته باشد، رویداد WWDC امسال میتواند اولین باری باشد که سیری «واقعی» را که ۱۳ سال پیش به ما وعده داده شده بود، خواهیم دید. شاید در تبلیغات بعدی، سوپ گوجهفرنگی دشانل به شکلی جادویی در خانهاش ظاهر شود و اپلیکیشن Headspace فعال شود تا آرامش و تمرکز را به مالکوویچ هدیه دهد. شاید امشب در مراسم WWDC 2024 که زومیت بهطور زنده پوشش خواهد داد، بالاخره همان سیری را که اپل همیشه به فکر توسعهاش بود، ببینیم.