مراسم I/O 2024 گوگل؛ هوش مصنوعی، قلب تپنده اندروید ۱۵
شنبه ۲۹ اردیبهشت ۱۴۰۳ - ۱۶:۴۰مطالعه 7 دقیقههی جمنای، کل مراسم Google I/O 2024 را برایم خلاصه کن!
ایکاش همهچیز به همین سادگی بود؛ اما با گذشت بیش از دو سال از تبوتاب هوش مصنوعی با معرفی ChatGPT و مراسم گوگل I/O پارسال که بهخاطر تمرکز عمیقش بر هوش مصنوعی بهتر بود Google AI نام میگرفت (سوندار پیچای آن موقع ۱۳۷ بار از کلمهی AI استفاده کرد؛ امسال؟ ۱۲۱ بار؛ طبق شمارش جمنای!)، هنوز هم بسیاری از آن قابلیتهای جادویی وعدهدادهشده، از دسترس ما خارج هستند.
گوگل امسال حدود ۴۰ سرویس هوش مصنوعی معرفی کرد (خودش دوست دارد بگوید ۱۰۰ چیزی که در رویداد معرفی شد) که از بین آنها، تنها هشت مورد از همینحالا دردسترس هستند؛ باقی سرویسها قرار است از هفتهها و ماههای آینده منتشر شوند و حتی چند مورد هم از سال دیگر یا در آیندهی نامعلوم دردسترس قرار خواهند گرفت.
گوگل حدود ۴۰ سرویس AI معرفی کرد؛ با اسامی گوناگون
اگر شما هم از مراسم Google I/O امسال و تعدد سرویسها و نامهای آنها دچار سردرگمی شدید، تنها نیستید؛ جمنای، استرا، چیپس، جمز، جمنای لایو، ویو و ایماجن ۳… گوگل عاشق نامگذاری محصولات است و حتی جمنای جیمیل و داکس را با نام «ساید پنل» معرفی کرد. بگذریم که خانوادهی پرجمعیت جمنای حالا اعضای بیشتری مثل Gemini 1.5 Flash و Gemini 1.5 Pro و Gemini Advanced دارد.
سوندار پیچای جایی در معرفی اعضای جدید جمنای گفت که مدل 1.5 Pro و 1.5 Flash بهزودی با یک میلیون توکن Context Window دردسترس عموم و مدل پرو با دو میلیون توکن دردسترس توسعهدهندگان قرار خواهند گرفت. بهطورخلاصه، Context Window به حداکثر حجم متنی اشاره دارد که مدل برای تولید پاسخ میتواند در لحظه پردازش کند و طبیعتا هرچه تعداد توکنهای این «پنجره» بیشتر باشد، از پس پاسخ به حجم بیشتری از داده برمیآید؛ مثلا میتوان چندین فایل PDF را همزمان به مدل 1.5 Pro سپرد و از آن خواست خلاصهای از تمام فایلها را ارائه دهد. سوندار در مراسم گفت هدف نهایی گوگل این است که آنقدر تعداد توکنهای جمنای را افزایش دهد تا به «محتوای بینهایت» برسد.
در بین محصولات معرفیشده، پروژهی Astra (لاتین بهمعنای ستاره) بیش از همه خودنمایی کرد. استرا درواقع رقیب مستقیمی برای GPT-4o اوپن ای آی بهشمار میرود و معلوم شد چرا سم آلتمن، مدیرعامل OpenAI، تصمیم گرفت رویدادش را با انتشار چند دموی «جادویی» قبل از گوگل برگزار کند (قدرت بازاریابی و رونمایی جلوتر از رقبا؛ خبر رونمایی از GPT-4o در زومیت نزدیکبه ۷۰هزار بار دیده شد؛ خبر معرفی استرا؟ اجازه بدهید چیزی نگویم.)
پروژهی استرا اساسا گوگل لنزی است که حسابی استروئید مصرف کرده (و خیلی هم فرقی با جمنای لایو ندارد؟). در دموی گوگل، فردی را دیدیم که دوربین گوشی را به اطراف اتاق میچرخاند و از جمنای دربارهی وسایل روی میز، کدهای روی مانیتور و محلهای که ساختمان در آن قرار دارد، سوال میپرسد؛ حتی جایی از دمو، فرد از جمنای پرسید عینکش را کجا گذاشته و جمنای «به یاد آورد» که عینک روی میز است و او را به سمتش هدایت کرد.
استرا گوگل بهاندازهی GPT-4o شگفتانگیز و نگرانکننده بهنظر میرسد
پروژهی استرا بهاندازهی ویدیوی مکالمه و مشاعرهی دو چتبات GPT-4o شگفتانگیز بهنظر میرسد؛ چتباتی که حالا مثل سامانتای فیلم Her صدا دارد، میخندد و به چیزهایی که از لنز دوربین گوشی میبیند، واکنش درست نشان میدهد.
اما استرا این پتانسیل را دارد که با واکنشهای منفی روبهرو شود و روزهای تاریک گوگل گلس را جلوی چشمان اهالی مانتینویو بیاورد. دستیار صوتی هوش مصنوعیِ همهچیزدانی که تمام فضای حریم شخصی کاربر را در لحظه اسکن میکند و صدا و تصویرش را در سرورهای ابری ذخیره میکند؟ یعنی چه اتفاق بدی ممکن است بیفتد؟
سرویس Ask Photos یکی دیگر از کاربردهای جالب هوش مصنوعی را به نمایش گذاشت؛ قابلیتی که قرار است برای مشترکان گوگل وان و به زبان انگلیسی منتشر شود و اجازه میدهد از گالری گوشی دربارهی عکسهایتان سؤال کنید! قابلیت Ask Photos جالب و کاربردی بهنظر میرسد، اما باز هم پای دغدغههای امنیتی به میان میآید.
جرمی سلیه، مهندس نرمافزار گوگل فوتوز، دربارهی دغدغههای امنیتی Ask Photos نوشت: «هیچکس مکالمه و دادههای شخصی شما را در Ask Photos بررسی نخواهد کرد، مگر در مواقع نادری که پای محتوای آسیبزننده در میان باشد. ما هیچ محصول مبتنیبر هوش مصنوعی مولد، ازجمله مدلهای جمنای را با دادههای شخصی کاربر در گوگل فوتوز آموزش ندادهایم.» اما چقدر میتوان به ادعاهای گوگل اعتماد کرد؟
تا بحث حریم شخصی است، گوگل حالا میخواهد جمنای به مکالمات تلفنی کاربران هم گوش دهد؛ قابلیت «تشخیص تماسهای کلاهبرداری» به اجازهی کاربر نیاز دارد و گوگل مدعی است تمام پردازشها روی خود گوشی انجام میشود، اما به هر حال هوش مصنوعی دارد به تمام مکالمات کاربر گوش میدهد تا بتواند جملات مشکوک به کلاهبرداری را تشخیص دهد. آیا واقعا کسی حاضر است جای نگرانی از کلاهبرداری را با نگرانیهای حریم شخصی عوض کند؟
سرچ هوش مصنوعی احتمالا یکی از بزرگترین تغییرات رابط کاربری است که طی سالهای گذشته در موتور جستجوی گوگل اتفاق افتاده. گوگل در مراسم نشان داد که چطور هوش مصنوعی جمنای برای جستوجوی بهتر، خلاصهکردن نتایج، حذف نتایج نامرتبط و ارائهی پاسخ دقیقتر بهکمک سرچ میآید و بهجای نمایش ۱۰ لینک آبی معروف، نتایج را در بلاکهای تصویری چشمنوازتری نمایش میدهد. اینطور که بهنظر میرسد، این تغییر احتمالا رتبهبندی وبسایتها را دستخوش تغییر کند، اما سایهی نفوذ گوگل سرچ در تشخیص محتوای ارزشمند از بیارزش سنگینتر از پیش خواهد شد.
یکی از وعدههای هوش مصنوعی مولد این است که درنهایت بهجای ما استدلال کند و تصمیم بگیرد؛ اما این اتفاق چه خوب و چه بد، هنوز محقق نشده است. گوگل در I/O 2024 برنامهریزی چندمرحلهای گوگل سرچ را نشان داد که در آن هوش مصنوعی کمک میکند در کلاس یوگا ثبتنام کنید، برای چند روز برنامهی غذایی بچینید یا برنامهی سفر بریزید. باید منتظر ماند و دید در واقعیت، چنین قابلیتی بیشتر کمکحال کاربران خواهد بود یا دردسرساز.
گوگل امسال هم از شر اشتباهات هوش مصنوعی در امان نماند
وقتی از بن گومز، معاون ارشد گوگل در حوزهی یادگیری، پرسیدند بالاخره کی میتوانیم به اطلاعات تولیدشده با هوش مصنوعی صددرصد اعتماد کنیم، جواب داد که مدلهای هوش مصنوعی درحال پیشرفت هستند و گوگل تستهای زیادی روی آنها انجام میدهد، اما درنهایت وظیفهی خود کاربر است که منبع اصلی محتوا را بررسی کند.
این جواب جدا از اینکه بار دیگر به نامطمئنبودن پاسخهای هوش مصنوعی تاکید کرد، مرا یاد ویدیوهای تبلیغاتی گوگل انداخت که ایکاش خود این شرکت نیز پیش از انتشار دمو، یکبار جوابهای جمنای را با منبع اصلی چک میکرد! خاطرتان باشد، اولین دموی گوگل برای چتبات بارد حاوی خطای علمی دربارهی یکی از دستاوردهای تلسکوپ جیمز وب بود؛ متاسفانه امسال هم گوگل از شر اشتباهات هوش مصنوعی در امان نماند. یکی از راهحلهای جمنای برای مشکل اهرم دوربین عکاسی این بود که «درِ پشتی را باز کنید و به آرامی فیلم را بردارید.» این درحالی است که اکثر افراد میدانند اگر فیلم در معرض نور قرار گیرد، تمام عکسها از بین میروند.
گوگل در رویداد امسال از تراشهی هوش مصنوعی Trillium رونمایی کرد که تا پایان سال ۲۰۲۴ دردسترس دیتاسنترها قرار میگیرد. تراشههای هوش مصنوعی گوگل موسومبه واحد پردازش تنسور (TPU) سنگبنای تمام این قابلیتهایی است که در رویداد امسال و پارسال معرفی شدند.
تراشهی تنسور گوگل حالا به نسل ششم رسیده، با قدرت محاسباتی ۴٫۷ برابر و پهنای باند حافظهی دو برابر بیشتر از نسل پنجم. گوگل گفت TPU جدید با ۶۷درصد مصرف انرژی کمتر از نسل پیش، بهینهترین مصرف انرژی را در بین تراشههای قبلی گوگل دارد که خبر بسیار مسرتبخشی است؛ اما بهینگی مصرف انرژی در هوش مصنوعی با روشهای متفاوتی توسط شرکتهای فناوری محاسبه میشود و نمیتوان به اعداد و ارقام چندان اعتماد کرد.
گوگل سفر چندسالهای را برای بازطراحی اندروید با هوش مصنوعی آغاز کرده
و اما اندروید؛ گوگل سفر پرپیچوخم چندسالهای را برای بازطراحی اندروید با هوش مصنوعی آغاز کرده است؛ از Circle to Search که مسائل ریاضی و فیزیک را قدمبهقدم به دانشآموزان توضیح میدهد تا سرویس TalkBack بهمنظور توصیف عکس برای افراد نابینا و بهبود جمنای در فهم محتوا یا اپلیکیشنی که روی گوشی در حال اجرا است؛ مثلا میتوانید دربارهی ویدیوی یوتیوب از جمنای سوال بپرسید یا کاربران نسخهی پولی میتوانند از جمنای دربارهی فایلهای PDF سوال کنند.
بسیاری از قابلیتهای معرفیشده برای اندروید ۱۵، بهویژه قابلیت آخر، مرا یاد ویژگی Now on Tap میاندازند که حدود ۱۰ سال پیش در اندروید ۶ ظاهر شد و به کاربر اجازه میداد با نگهداشتن دکمهی هوم یا فرمان صوتی، اطلاعات خاصی مثل نام اشخاص یا عناوین فیلم را در متن نمایشداده شده، جستجو کند. این قابلیت بعدا به گوگل اسیستنت تغییرشکل داد. حالا، تمام آن قابلیتها مبتنیبر مدلهای زبانی بزرگ هستند که طی ۱۰ سال گذشته درحال بهبود و آموزش بودهاند.
دیو برک، معاون مهندسی اندروید، دربارهی اینکه چطور برخی از قابلیتهای قدیمی دارند با پوشش هوش مصنوعی دوباره به گوشیها برمیگردند، گفت:
واقعا هیجانانگیز است که ما حالا تکنولوژیای در اختیار داریم که بتوانیم تمام این دستیارهای شگفتانگیز را با آن توسعه دهیم. ما به سیستم کامپیوتری نیاز داشتیم که بتواند آنچه را که میبیند، درک کند و فکر نکنم تکنولوژی آن موقع هنوز به جایی رسیده بود که بتواند این کار را بهخوبی انجام دهد؛ اما حالا این اتفاق افتاده.
سمیر سامات، رییس اکوسیستم اندروید، پس از معرفی قابلیتهای جدید هوش مصنوعی گفت: «اما در اندروید، این قابلیتها بسیار بیشترند.» او همچنین در گفتگویی در حاشیهی مراسم گفت:
هوش مصنوعی فرصت بسیار بزرگی برای بازتعریف اکوسیستم اندروید است. ما برای اینکه این فرصت را از دست ندهیم، با سرعت فوقالعادهای حرکت خواهیم کرد. این لحظهای است که فقط یکبار در هر نسل برای اختراع قابلیتهای جدید برای گوشیهای هوشمند رخ میدهد.
حتی باوجود حضور اپلیکیشن جمنای در iOS، گوگل هوش مصنوعی را در سطح سیستمعامل اندروید پیادهسازی کرده است و قابلیتهای اصلی در گوشیهای اندرویدی بهویژه پیکسل خودنمایی خواهند کرد. باایناوصاف، شاید بتوان گفت رقابت هوش مصنوعی برای گوگل (برخلاف OpenAI) درواقع رقابت گوشیهای هوشمند است؛ بهویژه چون اپل نیز دارد خود را برای رویداد AI-محور بزرگی در WWDC آماده میکند.
درکل، مراسم Google I/O امسال پر بود از قابلیتهای کموبیش جذابی که خبر از تحولی بزرگ در اکوسیستم اندروید میدهند. البته برای من تکاندهندهترین چیزی که در مراسم اعلام شد این بود که هر روز بیش از ۶ میلیارد عکس در گوگل فوتوز آپلود میشود؛ برای شما چطور؟