برنامههای اسرارآمیز هوش مصنوعی اپل؛ از سیری هوشمندتر تا پروژه Ferret
دوشنبه ۱۴ خرداد ۱۴۰۳ - ۱۳:۳۰مطالعه 10 دقیقهاپل دیر وارد بازی هوش مصنوعی شد؛ این را همه میدانند. طرفداران این شرکت از اواخر سال ۲۰۲۲ که چتجیپیتی طوفانی در جهان فناوری به پا کرد، چشمانتظار ورود اپل به این عرصه بودهاند، اما تاکنون حرکتی جدی از سوی اپل دیده نشده است.
برخی از رقبا نیز که نگران عقبماندن از این جریان بودند، بلافاصله محصولاتی را با پسوند هوش مصنوعی عرضه کردند که اکثراً مورد استقبال کاربران قرار نگرفتند. اپل نیز مطمئناً به این حوزه علاقهمند است و برخی از محصولات جدیدش ازجمله اپلیکیشن لاجیک پرو را با درنظر گرفتن این فناوری عرضه کرده، اما این قدمها در مقایسه با مایکروسافت، گوگل و حتی سامسونگ بسیار کوچک بهنظر میرسند.
اپل در حال مذاکره با OpenAI و گوگل است تا ویژگیهای هوش مصنوعی خود را تقویت کند
بااینحال، در ماههای اخیر شایعات و گزارشهایی منتشر شده که نشان میدهند اپل از مدتها پیش پا در مسیر هوش مصنوعی گذاشته و فقط منتظر بهترین فرصت برای عرضهی نهایی محصول جدیدش بوده است. اپل مشغول کار روی مدل زبانی خود بهنام Ajax بوده، اما احتمالاً همچنان چتبات هوش مصنوعی اختصاصی خود را برای معرفی در رویداد WWDC امسال ندارد.
از طرفی، به نظر میرسد اپل با OpenAI بر سر ادغام ChatGPT در iOS 18، به توافق رسیده است؛ اگرچه به گفتهی بلومبرگ، اپل بیشتر تمایل دارد با گوگل دربارهی ارائهی دستیار هوش مصنوعی جمنای در آیفون به توافق برسد.
ورج برای پی بردن به برنامههای اسرارآمیز هوش مصنوعی اپل، نگاه عمیقی به تحقیقات منتشرشدهی این شرکت انداخته است که در ادامه آنها را با هم مرور میکنیم. البته بدیهی است که از پژوهش تا تولید محصول راه پرپیچوخمی در پیش است و نمیتوان صرفاً با تمرکز به مقالات پژوهشی دربارهی محصولات نهایی این شرکت صحبت کرد؛ اما میتوان دستکم دربارهی مدل فکری اپل به نتیجهای رسید.
البته چیزی تا WWDC نمانده است و آنجا پرده از برخی از برنامههای مخفی هوش مصنوعی اپل برداشته خواهد شد.
اپل بهدنبال مدلهای هوش مصنوعی کوچکتر و کارآمدتر
به نظر میرسد کاربران اپل همگی منتظر نسخهای بهبودیافتهی سیری هستند و ظاهراً اپل هم دارد سیری بهتری را آماده میکند. در بسیاری از تحقیقات ثابت شده است که مدل های زبانی بزرگ (LLM)، باعث پیشرفت و هوشمندتر شدن دستیارهای مجازی میشوند. بنابراین اپل برای ارائهی نسخهی هوشمندتر سیری، باید تاکنون مدل زبانی بزرگ خود را توسعه داده باشد و بهزودی دسترسی به آن را از طریق تمام دستگاههایش ممکن کند.
اپل در iOS 18 قصد دارد تمام ویژگیهای هوش مصنوعی خود را بهصورت کاملاً آفلاین اجرا کند
بلومبرگ اخیراً گزارش داده است که اپل در iOS 18 قصد دارد تمام ویژگیهای هوش مصنوعی خود را بهصورت کاملاً آفلاین اجرا کند! ساختن یک مدل زبانی چندمنظورهی خوب، حتی با کمک شبکهای از مراکز داده و هزاران پردازندهی گرافیکی پیشرفته نیز سخت است، چه برسد به انجام آن تنها با پردازندهی داخل گوشی موبایل. اگر این گزارش صحیح باشد، باید منتظر خلاقیتی جسورانه از سوی کوپرتینونشینها باشیم.
در مقالهای با عنوان «LLM در یک نگاه: استنتاج مدل زبانی بزرگ کارآمد با حافظهی محدود»، محققان اپل سیستمی برای ذخیرهی دادههای یک مدل زبانی ابداع کردند که برخلاف مدلهای دیگر، بهجای ذخیرهی دادهها در رم دستگاه، آنها را در SSD ذخیره میکند. این محققان اعلام کردند که توانستهاند LLM-هایی با اندازهی دو برابر ظرفیت کل رم دستگاه را روی SSD اجرا کنند. بهگفتهی آنها «سرعت استخراج داده در مدلی که روی SSD قرار دارد، ۴ تا ۵ برابر بیشتر از روشهای سنتی بارگذاری در CPU و ۲۰ الی ۲۵ برابر بیشتر از GPU در مدلهای قرارگرفته در رم است. بدینترتیب با استفاده از ارزانترین و در دسترسترین فضای ذخیرهسازی دستگاه، میتوان مدلهای زبانی را سریعتر و کارآمدتر از قبل کرد.
محققان اپل نیز سیستم فشردهسازی جدیدی به نام EELBERT ساختهاند که میتواند یک LLM را تا اندازهای بسیار کوچک فشرده کند، بدون اینکه عملکرد آن تضعیف شود. این مدل فشرده تنها ۱٫۲ مگابایت حجم دارد و ۱۵ برابر کوچکتر از مدل Bert گوگل است، اما کیفیت نتایج آن پس از فشردهسازی تنها ۴ درصد افت میکند. البته دریافت و تحویل اطلاعات در این مدل گاهی با تأخیر همراه است.
اپل در تلاش است مدل زبانیاش تعادل مناسبی میان دقت نتایج و مصرف منابع برقرار کند
اپل در حال تلاش برای حل یک معضل بزرگ در دنیای مدلهای زبانی است. هرچند با بزرگتر شدن مدل زبانی، دقت آن هم بالاتر میرود و مفیدتر میشود، اما ساخت آن دشوارتر، انرژی مصرفی آن بیشتر و زمان پاسخدهی آن هم طولانیتر خواهد شد. کوپرتینونشینها مانند بسیاری دیگر از شرکتها در تلاشاند تا نقطهی تعادلی را بین تمام این عوامل پیدا کنند؛ نقطهای که با وجود کسب نتایج دقیق، به هدر دادن منابع زیادی منجر نشود.
شاید همان «سیری»، اما هوشمندتر از قبل
بسیاری از چیزهایی که در ذهن کاربران است و بهعنوان هوش مصنوعی از آن یاد میکنند، در واقع همان مفهوم دستیار مجازی است؛ دستیارانی همیشهآماده که خیلی چیزها را میدانند، میتوانند امور مهم را به ما یادآوری کنند، به سؤالاتمان پاسخ دهند و برخی کارها را بهجای ما انجام دهند. سیری میتواند اغلب این وظایف را با دقت قابل قبولی انجام دهد؛ پس منطقی است که اپل به دنبال بهبود مهارتهای دستیار مجازی خود تا بالاترین حد ممکن باشد.
گروهی از محققان اپل مشغول تلاش برای فعالسازی سیری بدون نیاز به استفاده از عبارتهای مخصوص فراخوانی آن هستند. در حال حاضر برای فراخوانی سیری حتماً باید عبارت «Hey Siri» یا «Siri» را بر زبان بیاورید. اگر این دستیار مجازی بتواند بدون نیاز به این عبارات تشخیص دهد که دارید با او صحبت میکنید یا با فردی دیگر، عملکرد آن بسیار طبیعیتر خواهد شد.
اپل احتمالاً میخواهد عبارت فراخوانی را برای فعالکردن سیری حذف کند
محققان اپل میگویند حل این مشکل بسیار دشوارتر از تشخیص عبارت فراخوانی است، چرا که در صورت حذف عبارت فراخوانی، سیری باید بسیاری از جملات کاربر را که لحنی عادی دارند اما در حقیقت خطاب به دستیار مجازی بازگو میشوند، شناسایی کند. شاید به همین دلیل است که گروه دیگری از محققان ترجیح دادهاند سیستمی را برای تشخیص دقیقتر عبارتهای فراخوانی ایجاد کنند. در مقالهای دیگر، محققان مدلی را آموزش دادند تا کلمات نادری را که معمولاً دستیارهای مجازی به درستی درک نمیکنند، به خوبی بفهمد.
جذابیت مدلهای زبانی مورد بحث در این است که میتوانند نسبت به رقبا، اطلاعات بسیار بیشتری را با سرعت بالاتر پردازش کنند. مثلاً در مقالهی مربوط به عبارت فراخوانی، محققان دریافتند که با حذف نکردن دیتای صداهای غیرضروری و اجازه دادن به مدل زبانی برای شنیدن تمام اصوات محیط، به آن کمک میکنند تا خودش اطلاعات مهم و غیرمهم را از هم تفکیک کند و دقتش در تشخیص عبارت فراخوانی بسیار بیشتر از قبل شود.
وقتی کاربران سیری را صدا میزنند، کارهای زیادی در پسزمینه انجام میشود تا این دستیار صوتی سخنانشان را بفهمد و بهتر با آنها ارتباط برقرار کند. در یک مقالهی دیگر، محققان سیستمی به نام STEER (مخفف تشخیص بسط و توسعهی چرخش معنایی) ایجاد کردند که هدف آن بهبود پیامهای ردوبدلشده میان کاربر و دستیار مجازی و ارتقای توانایی تشخیص دستیار بود تا بفهمد چه زمانی دارید سؤالاتی در تکمیل همان بحث قبلی میپرسید و چه زمانی در حال پرسیدن سؤالی جدید هستید.
در مقالهای دیگر، محققان از LLM برای درک بهتر «درخواستهای مبهم» استفاده کردند تا دستیار مجازی را آموزش دهند که صرفنظر از نحوهی بیان کاربر، بتواند متوجه منظور او بشود. آنها در مورد نتیجهی پژوهش خود گفتند: «در چنین شرایطی، ممکن است دستیارهای هوشمند نیاز به ابتکار عمل و پرسیدن سؤالات تکمیلی خوب از کاربر داشته باشند تا تردید خود را کاهش دهند و مشکلات را به نحو مؤثرتری حل کنند.» هدف یک مقالهی مشابه دیگر نیز کمک به حل این موضوع است و محققان آن از LLMها استفاده کردهاند تا کاری کنند که دستیارهای مجازی هنگام پرسیدن سؤالات تکمیلی مدنظر خودشان کمتر حرافی کنند و سؤالاتشان قابل درکتر شود.
هوش مصنوعی؛ از سلامتی تا ویرایش تصاویر و خلق میموجیها
اپل هر زمان که بهطور علنی در مورد هوش مصنوعی صحبت میکند، کمتر تمایل به تمرکز بر قدرت محاسباتی خام این فناوری دارد و بیشتر سعی میکند کاربرد آن در تسهیل امور روزمره را برای کاربران پررنگ کند.
کوپرتینونشینها در حال حاضر تمرکز خود را روی سیری گذاشتهاند تا از دستگاههایی مانند Humane AI Pin و Rabbit R1 عقب نیفتد، اما برنامههایی نیز برای رقابت با هوش مصنوعی جمنای دارد که بهتدریج به تمام سرویسهای گوگل راه پیدا میکند. البته اپل معتقد است که هوش مصنوعی کاربردهای مفید دیگری هم دارد.
یکی از بخشهایی که اپل واضحاً روی آن تمرکز کرده، حوزهی سلامتی است. LLMها دستکم روی کاغذ میتوانند به عبور از اقیانوس دادههای سلامتی جمعآوریشده توسط ابزارهای مختلف کاربر و تفسیر آنها کمک کنند. این غول فناوری در مورد نحوهی جمعآوری دادههای حرکتی، چگونگی استفاده از شیوهی راه رفتن و طرز قرارگیری هدفون در گوش برای شناسایی کاربر و نحوهی ردیابی و تفسیر دادههای ضربان قلب او تحقیق کرده است. اپل پس از جمعآوری دادههای ۵۰ فرد که هرکدام چندین حسگر به بدنشان متصل شده بود، «بزرگترین مجموعه دادههای فعالیت انسانی مبتنی بر حسگرهای چندمکانی چند دستگاهی» را تولید و منتشر کرد.
به نظر میرسد کوپرتینونشینها به هوش مصنوعی به چشم ابزاری برای خلاقیت نگاه میکنند. در یک مقاله، محققان با گروهی از انیماتورها، طراحان و مهندسان مصاحبه کردند و سپس سیستمی به نام Keyframer ساختند که کاربران را قادر میسازد تصاویر تولیدشده توسط هوش مصنوعی را قدم به قدم ویرایش کنند. در واقع بهجای اینکه با هر بار درخواست، یک تصویر دریافت کنید و سپس متن درخواست را تغییر دهید تا تصویر متفاوتی دریافت کنید، کافی است با استفاده از جعبهابزاری که در اختیارتان قرار میگیرد، شروع به ویرایش تصویر کنید و قسمتهای دلخواه خود را تغییر دهید! این فرایند هنری قدم به قدم میتواند تغییرات عمیقی را در سرتاسر اکوسیستم اپل از خلق میموجی گرفته تا ابزارهای هنری حرفهایتر به ارمغان آورد.
در مقالهای دیگر، اپل ابزاری به نام MGIE را توصیف کرده است که به کاربر امکان میدهد تصویر مدنظرش را تنها با توصیف ویرایشهایی که میخواهد بر روی آن اعمال شود، اصلاح کند. مثلاً تنها کافی است بگویید: «آسمان را آبیتر کن»، «صورتم را کمتر تغییر بده» یا «چندتا سنگ روی زمین اضافه کن». اپل با MGIE قصد دارد هوش مصنوعی را نسبت به محتوای تصویر آگاه کند و آن را در اختیار کاربر بگذارد تا ویرایش تصاویر به شیوهی معقولتری انجام شود. محققان میگویند آزمایشهای اولیهی این ابزار با وجود بینقص نبودن، بسیار چشمگیر بودهاند.
کوپرتینونشینها حتی ممکن است هوش مصنوعی را به اپل موزیک بیاورند. محققان در مقالهای با عنوان «حذف صدای آواز استریو با استفاده از منابع محدود»، به بررسی راههایی برای جداسازی صدای خواننده از صدای سازهای موجود در آهنگها پرداختهاند. چنین قابلیتی میتواند بسیار مفید باشد و کاربران میتوانند با استفاده از آن، آهنگهای دلخواه خود را برای استفاده در اینستاگرام و تیکتاک ریمیکس کنند. به نظر میرسد که چنین کاربردهای مفید، غیرتخصصی و سادهای، همان کاربردهایی از هوش مصنوعی باشند که اپل میخواهد در نهایت در اپلیکیشنهای مختلفش به عموم کاربران بهویژه در سیستمعامل iOS ارائه کند.
اپل ممکن است هوش مصنوعی مشابه لاجیک پرو را به اپل موزیک نیز بیاورد
برخی از قابلیتهای هوش مصنوعی فوق نیز بهعنوان API در اختیار توسعهدهندگان دیگر قرار خواهد گرفت. ویژگی اخیر Journaling Suggestions دید خوبی در مورد نحوهی کارکرد این API-ها به ما میدهد. اپل همیشه از قابلیتهای سختافزاری خود بهویژه در مقایسه با دستگاههای اندرویدی سخن گفته است. قرار دادن این برتریهای سختافزاری در کنار یک هوش مصنوعی متمایز و متمرکز بر حریم خصوصی میتواند تبدیل به برگ برندهی این غول فناوری شود.
اما اگر بخواهیم به بزرگترین و جاهطلبانهترین پروژهی هوش مصنوعی اپل بپردازیم، باید ابتدا Ferret را معرفی کنیم. Ferret یک LLM چندوجهی است که میتواند روی چیز خاصی که در تصاویر دورش خط کشیدهاید یا به نحو دیگری انتخاب کردهاید، تمرکز کند و دنیای اطراف آن را درک کند.
در حال حاضر معمولاً کاربران چیزی را به هوش مصنوعی میگویند و در مورد آن سؤالاتی میپرسند، اما Ferret با این هدف طراحی شده که بتواند آنچه را که روی صفحهنمایش دستگاه است، بررسی و درک کند.
Ferret بزرگترین و جاهطلبانهترین پروژهی هوش مصنوعی اپل است
محققان پروژهی Ferret در مقالهی خود میگویند این هوش مصنوعی میتواند در پیمایش برنامههای مختلف به کاربر کمک کند، به سؤالات مربوط به رتبهبندی برنامهها در اپاستور پاسخ دهد و هرآنچه را که روی صفحه قرار دارد، توصیف کند. این فناوری علاوهبر کمک به افراد با ناتوانیهای جسمی، میتواند شیوهی استفادهی سایر کاربران از تلفن همراه، هدستها و عینکهای هوشمند را به کلی تغییر دهد.
البته تا زمان رونمایی از قابلیتهای هوش مصنوعی اپل، هر سناریویی که بیان شود نقش گمانهزنی خواهد داشت، اما میتوان حدس زد که عملکرد این هوش مصنوعی در ارتباط با سایر سرویسهای اپل چگونه خواهد بود؛ سیری تقویتشده با هوش مصنوعی که میتواند به همهچیز پاسخ دهد و با دستگاهی جفت میشود که میتواند هر چیزی را که روی صفحهنمایش میبیند، درک کند و توضیح دهد. اپل خودش سازندهی سیستمعامل و طراح سختافزار دستگاههایش محسوب میشود و نیازی به تلاش برای یکپارچگی عمیق ندارد. کافی است برنامهها را اجرا کند و بهطور خودکار دکمهها و گزینههایی درست را فعال کند.
تمام حدسیات بالا مبتنیبر پژوهشهای اخیر اپل است و بعید به نظر میرسد که همین امسال شاهد رونمایی یکبارهی تمام این پیشرفتها باشیم. برخی از این موارد شاید اصلاً عملی نشوند؛ اما شکی نیست که هرآنچه که قرار است در WWDC امسال شاهد آن باشیم، ارتباط تنگاتنگ و هیجانانگیزی با هوش مصنوعی دارد. تیم کوک، مدیرعامل اپل ۳ ماه پیش اشارههایی به این موضوع داشت و در آخرین سخنانش در ماه اخیر بر اهمیت هوش مصنوعی تأکید کرد.
کاملاً واضح است که اپل عزم خود را جزم کرده تا حضور قدرتمندی در رقابت هوش مصنوعی داشته باشد؛ حضوری که ممکن است بهزودی موجب بازنگری عظیمی در ماهیت کلی آیفون شود. اما حتی اگر چنین اتفاقی هم نیفتد، کمترین دستاورد ورود جدیتر اپل به عرصهی هوش مصنوعی میتواند آشتیدادن کاربران با دستیار هوشمند سیری باشد که بهخودیخود دستاورد بزرگی برای کوپرتینونشینها خواهد بود.