هوش مصنوعی دیپ مایند در بازیهای چندنفره هم انسان را شکست میدهد
بازی «فتح پرچم» یکی از مشهورترین انواع بازی است که هم بهصورت فیزیکی و هم دیجیتالی انجام میشود. از نمونههای مشهور آن میتوان به Quake III و Overwatch اشاره کرد. در همهی انواع فتح پرچم، با یک بازی گروهی روبهرو هستیم. هر گروه تلاش میکند تا در عین حفاظت از پرچم خود، پرچم تیم حریف را نیز در اختیار بگیرد و به پایگاه خود بیاورد. پیروزی در بازی فتح پرچم نیاز به همکاریهای گروهی حرفهای دارد و همچنین باید تعادلی کامل بین دفاع و حمله ایجاد شود.
در تعریف بازی فتح پرچم میتوان ادعا کرد که مهارتهای انسانی بیش از همهچیز اهمیت پیدا میکنند. البته دانشمندان هوش مصنوعی در آزمایشگاه دیپ مایند لندن، ثابت کردند که ماشینها هم میتوانند در این بازی مهارت پیدا کنند. در مقالهای که چند روز پیش در مجلهی ساینس چاپ شد، محققان ادعا کردند که کارگزارهای هوشمندی با قابلیت شبیهسازی رفتارهای انسانی در بازی فتح پرچم توسعه دادهاند.
برای انجام آزمایش روی کارگزارهای هوشمند، از بخش فتح پرچم بازی Quake III استفاده شد. کارگزارهای هوشمند توانستند بهصورت گروهی دربرابر بازیکنان انسانی یا درکنار آنها بازی کرده و رفتارهای آنها را بهخوبی شبیهسازی کنند. ووسیچ کارنگی، از محققان دیپ مایند دربارهی آزمایش میگوید: «کارگزارهای هوشمند بهخوبی با اعضای تیم خود هماهنگ میشوند».
کارگزارهای هوشمند با هزاران ساعت بازی توانستند مهارتهایی کاربردی در بازی فتح پرچم کسب کنند. بهعنوان مثال آنها آموختند که در موقع حمله و پس از در اختیار گرفتن پرچم حریف توسط یکی از همتیمیها، با سرعت به سمت قلعهی حریف حرکت کنند. دلیل حرکت یادشده نیز آن است که پس از آوردن یک پرچم از حریف به قلعهی خودی، پرچمی دیگر در پایگاه آنها ایجاد میشود و میتوان راحتتر آن را تصاحب کرد. درنتیجه یک بازیکن باید در نزدیکی پایگاه حریف باقی بماند.
پروژهی کنونی دیپ مایند با هدف توسعهی هوش مصنوعی انجام میشود که بتواند در بازیهای سهبعدی پیچیده مانند Quake III، Dta 2 و StarCraft II حرفهای بازی کند. محققان بسیاری اعتقاد دارند درصورت موفقیت کارگزارها در دنیای مجازی، میتوان سیستمهای اتوماتیکی با تواناییهای عالی در دنیای واقعی توسعه داد.
بهعنوان نمونهای از کاربردهای واقعی هوش مصنوعی میتوان به انبارداری رباتیک اشاره کرد. در انبارهایی که رباتها بهصورت گروهی کالاها را جابهجا میکنند، میتوان از هوش مصنوعی با قابلیت همکاری گروهی بهرهبرداری کرد. بهعلاوه در خودروهای خودران نیز میتوان از کارگزارهای جدید بهره برد. گرگ بروکمن، محقق هوش مصنوعی که پروژهی مشابهی را در OpenAI مدیریت میکند، دربارهی بازیها و هوش مصنوعی میگوید:
بازیها همیشه دستاورد مهمی برای هوش مصنوعی بودهاند. اگر شما نتوانید معمای بازیها را حل کنید، نمیتوانید هیچ چیز دیگر را حل کنید.
تا پیش از این، توسعهی یک هوش مصنوعی که بتواند در بازیهایی همچون Quake III با انسان رقابت کند، تقریبا غیرممکن بود. در طول سالهای گذشته، DeepMind و OpenAI و آزمایشگاههای بسیار دیگری برای حل این چالش وارد عمل شدهاند و پیشرفتهای قابلتوجهی هم داشتهاند. عمدهی موفقیتهای آنها بهلطف استفاده از روشی ریاضیاتی بهنام یادگیری تقویتی (Reinforcement Learning) بهدست آمد.
کارگزار هوشمند با بازی کردن چندینبارهی بازیها میتواند استراتژیهای منجر به پیروزی و شکست را شناسایی کند. بهعنوان مثال وقتی کارگزاری با رفتن به سمت پایگاه حریف در زمان در اختیار داشتن پرچم توسط همتیمیها امتیاز بیشتری دریافت کند، این روش را به مجموعهی استراتژیهای عملکردی خود اضافه میکند.
محققان دیپ مایند در سال ۲۰۱۶ با بهکارگیری روش یادگیری تقویتی توانستند هوش مصنوعی با قابلیت شکست برترین بازیکنان بازی سنتی Go توسعه دهند. بسیاری از متخصصان بهخاطر پیچیدگیهای فراوان بازی گو تصور میکردند پیروزی هوش مصنوعی در آن تا دههها بعد ممکن نخواهد بود. درحالیکه مهندسان دیپ مایند خلاف این تصور را ثابت کردند.
بازیهای ویدئویی اولشخص، دشواریهای بسیار پیچیدهتری نسبت به بازیهای تختهای همچون شطرنج و گو دارند. بهعلاوه وقتی همکاری و موقعیتدهی همتیمیها در بازی مطرح شود، پیچیدگی چندین برابر خواهد شد. کارگزار هوشمند دیپ مایند با ۴۵۰ هزار بار بازی کردن فتح پرچم توانست اصول آن را بیاموزد. کارگزارها ابتدا عملکردی فاجعهبار داشتند و بهراحتی شکست میخوردند. آنها بهمرور جزئیات بازی و نکات ریز آن را بههمراه استراتژیهای حمله و دفاع آموختند.
پیروزی در بازی Go، دستاورد بزرگ هوش مصنوعی دیپ مایند بود
مهندسان دیپ مایند پس از پایان پروژهی بازی فتح پرچم، کارگزاری با قابلیت شکست بازیکنان حرفهای در بازی StarCraft II توسعه دادند. در آزمایشگاه OpenAI نیز یک هوش مصنوعی توسعه داده شد که در بازی Dota 2 مهارت دارد. این بازی را میتوان نسخهای حرفهای از فتح پرچم دانست. در ماه آوریل گذشته، یک تیم پنجنفره از کارگزارهای هوش مصنوعی توانست تیم پنجنفرهی بازیکنان حرفهای Dota 2 را شکست دهد.
ویلیام لی از بازیکنان مشهور دوتا ۲ است که سال گذشته با نمونههای اولیهی کارگزار هوش مصنوعی رقابت کرد. هوش مصنوعی در آن زمان تنها میتوانست بازیهای یکنفره را انجام دهد و ویلیام عملکرد آن را نپسندید. البته پس از ماهها تمرین و حرفهای شدن هوش مصنوعی، ویلیام اکنون مهارت آنها را تحسین میکند:
تصور نمیکردم که ماشینها روزی بتوانند بازی را در تیمهای پنجنفره انجام دهند، چه برسد به آن که در آن پیروز شوند.
در مقابل کاربران و گیمرهایی که از پیشرفتهای هوش مصنوعی در بازیها شگفتزده میشوند، بسیاری از متخصصان هوش مصنوعی، کاربردی بودن دستاوردهای جدید را زیر سؤال میبرند. آنها میگویند پیروزی در بازیها نمیتواند کاربردی در دنیای واقعی داشته باشد. مارک ریدل، استاد دانشگاه جورجیا تک و از متخصصان هوش مصنوعی اعتقاد دارد کارگزارهای دیپ مایند در آزمایشهای فوق، همکاری واقعی نداشتند. او میگوید کارگزارهای بهجای ردوبدل کردن پیام مانند انسانها، تنها به رخدادهای داخل بازی واکنش نشان میدهند.
شاید در نگاه اول، فعالیت کارگزارها مانند همکاری به چشم باید. درحالیکه آنها به این دلیل موفق میشوند که هرکدام بهتنهایی درکی از رخدادهای درحال وقوع در بازی دارند. مکس جادربرگ از محققان دیپ مایند اعتقاد دارد تعریف همکاری گروهی را باید برای توضیح فعالیتهای کارگزارهای هوشمند در نظر گرفت. او میگوید همینکه کارگزار هوشمند در پایگاه حریف منتظر پرچم جدید میماند، یعنی به فعالیتهای همتیمیهایش وابسته است.
کارگزار هوش مصنوعی در بازی فتح پرچم، همکاری و استراتژی را میآموزد
بازیهایی شبیه به آنچه در آزمایش بالا انجام شد، بههیچوجه بهاندازهی دنیای واقعی پیچیده نیستند. محیط این بازیها بهگونهای طراحی شده است که حرکت را آسان کند و درنتیجه، استراتژی و موقعیتیابی در آنها اصلا دشوار نیست.
روش یادگیری تقویتی را میتوان روشی کاربردی برای بازیها دانست. درواقع در بازیهای ویدئویی، شناسایی فاکتورهایی برای موفقیت، دشواری آنچنانی ندارد. بهعنوان مثال امتیازهای بیشتر در بازی میتوانند علامتی از موفقیت برای کارگزار هوشمند باشند. درمقابل در دنیای واقعی، هیچ فاکتوری برای درک موفقیت وجود ندارد. احتمالا محققان برای پیادهسازی یادگیری تقویتی در دنیای واقعی، باید فاکتورهای موفقیت را برای هوش مصنوعی در فضاهای واقعی بازتعریف کنند.
پیادهسازی یادگیری تقویتی در دنیای واقعی هم آنچنان دشوار نیست. محققان OpenAI توانستهاند بازوی رباتیکی طراحی کنند که با مکعبهای الفبایی بهخوبی کار کند. اگر از این بازو بخواهید حرف مشخصی از الفبا را نشان دهد، بهراحتی و سرعت، حرف مورد نظر را نمایش میدهد. در نمونهای دیگر، مهندسان رباتیک گوگل بازویی طراحی کردند که توانایی برداشتن و پرتاب کردن اجسام گوناگون در یک ظرف هدف را دارد. چنین رباتی میتواند در انبارهای بزرگ و مراکز توزیع کاربرد داشته باشد.
آزمایشگاههایی همچون دیپ مایند و OpenAI با تلاش برای حل مسائل پیچیدهتر، احتمالا به منابع پردازشی بزرگتری نیاز پیدا خواهند کرد. آنها تاکنون با تکیه بر هزاران تراشهی پردازشی توانستهاند در بازیهای دشوار مهارت پیدا کنند. چنین روندی قطعا افزایش هزینه در این آزمایشگاهها را در پی خواهد داشت که متخصصان باید توجیههایی قابلقبولتر برای آن داشته باشند.
نظرات