هوش مصنوعی OpenAI هماکنون قادر به شکست تیمهای نیمهحرفهای دوتا 2 است
کاربری هوش مصنوعی (AI) تنها به کارهایی مانند اعمال افکتهای اسلوموشن به ویدیوها و پیشنهاد محصولات بر اساس دکور خانه، محدود نمیشود. این حوزه هماکنون قادر به شکست بازیکنان باسابقه انسانی یکی از محبوبترین بازیهای استراتژی آنلاین دنیاست: دوتا ۲ شرکت ولو.
اُپن اِیآی یک شرکت تحقیقاتی غیرانتفاعی فعال در حوزه هوش مصنوعی است. OpenAI سانفرانسیسکویی توسط تعدادی از ستارگان آسمان فناوری مانند ایلان ماسک، رید هافمن و پیتر تیل پشتیبانی میشود. این شرکت بهتازگی اعلام کرده است که آخرین نسخه از هوش مصنوعی این شرکت که دوتا ۲ بازی میکند (ملقب به OpenAI Five)، توانسته ۵ تیم از بازیکنان نیمهحرفهای را شکست بدهد. یکی از این تیمها متشکل از کارکنان خود شرکت ولو (سازنده Dota 2) بود.
نسل قدیم از سیستم OpenAI تنها قادر به برتری در دیدارهای یک در برابر یک بود که پیچیدگی بسیار کمتری نسبت به بازی گروهی ۵ در برابر ۵ دارد.
همبنیانگذار و مدیر ارشد فناوری OpenAI میگوید:
بازی دوتا واقعا پیچیده است. در این بازی شما با افقهای زمانی طولانی و بهطور پیوسته مواجه میشوید. در بازیهای رومیزی شاهد چند صد حرکت ممکن هستیم، اما در دوتا ۸۰ هزار فریم مجزا داریم. هرگاه کاری انجام دهید، اتفاقات بسیار بیشتری بهتبع آن رخ میدهد. باید راهی پیدا کنید تا بتوانید برای این زمان طولانی و با کنترل بسیار کم، برنامهریزی مناسبی داشته باشید.
الگوریتمهای یادگیری ماشین OpenAI به مصاف با ۵ تیم رفت: یک تیم از کارکنان OpenAI، یک تیم از مخاطبانی که بازی را مشاهده میکردند، یک تیم از کارکنان ولو، یک تیم آماتور و یک تیم نیمهحرفهای. هوش مصنوعی بهراحتی سه تیم اول را در دیدارهای متعددی شکست داد و دو بازی از سه بازی خود در مقابل تیمهای چهارم و پنجم را نیز برد.
OpenAI Five واقعا در بعضی از زمینهها برتر بود. این هوش مصنوعی میتوانست به تغییرات سلامتی، موقعیت و تجهیزات هر بازیکن بهطور آنی پاسخ دهد. بهطور میانگین، شبکه عصبی آن حدود ۱۵۰-۱۷۰ عمل در دقیقه (تا بیشترین مقدار ۴۵۰) با زمان واکنش فرا انسانی ۸۰ میلیثانیه، انجام داد و این هوش مصنوعی با محدودیتهایی روی برخی از قابلیتهای ویژه، آیتمها و شخصیتها بازی کرد. اما هیچکدام از این برتریها در کامل کردن هدف غایی این هوش مصنوعی یعنی ارائهی بازی مشابه با بازیکنان کاملاً حرفهای، کافی نبود.
هوش مصنوعی بارها طی بازی «Safe Lane» خود را برای بهدستآوردن Safe Lane حریف، قربانی کرد؛ و همچنین با حمله به سنگرها و قهرمانان تیم مقابل، قهرمانان خود را ارتقا داده و سریعتر از بسیاری از رقبای انسانی به سمت پایگاه دشمن حرکت میکرد.
این هوش مصنوعی همچنین یکسری تکنیک جدید در حین این بازیها یاد گرفته است؛ مانند جاخالی دادن مقابل موشکها و کسب XP در ابتدای بازی. هوش مصنوعی حتی تکنیکهایی مانند «creep blocking» را در بازی پیاده کرد، تکنیکی که در آن یک قهرمان بهطور فیزیکی مسیر دشمنان کوچک را مسدود میکند تا از پیشرفت آنان جلوگیری کند.
OpenAI برنامه دارد تا در آینده هوش مصنوعیاش را با تیمهای حرفهای رقابت دهد.
آموزش OpenAI Five
OpenAI Five از ۵ لایه تکی، شبکههای حافظه کوتاهمدت ۱۰۲۴ واحدی (LSTM) - نوعی از شبکه عصبی بازگشتکننده (RNN) که میتواند مقادیر یک طول دلخواه از زمان را «به یاد بسپارد» - که هرکدام به یک قهرمان اختصاص دارند، تشکیل شده است. شبکهها با یک مدل یادگیری تقویتی عمیق آموزش داده شدهاند که با پیشرفت و تخصیص پاداش به خود، انگیزه میگیرد. در مورد OpenAI Five، پاداشها همان تعداد کشتهها، مرگها، کمکها (assist)، ارزش خالص و دیگر آمار بازی دوتا هستند.
جالب است بدانید که این شبکههای LSTM با یکدیگر ارتباط برقرار نمیکنند. بهجای آن، یک هایپرپارامتر به نام «روحیه تیمی» که مقداری از ۰ تا ۱ است، ترجیح هر قهرمان بر پاداش شخصی و تیمی را مشخص میکند.
برای آمادهسازی دیدارها، سیستم هر روز معادل ۱۸۰ سال روی یک سیستم متشکل از ۲۵۶ کارت گرافیک انویدیا P100، بازی میکند (۱۲۸ هزار هسته در مقایسه با ۶۰ هزار هسته بات قبلی دوتا).
حین هر دیدار، هر بازیکنی میتواند ۱۷۰ هزار عمل ممکن را انجام دهد؛ و اگر تمام قهرمانان بازی را در نظر بگیریم حدود ۱۰ هزار حرکت در هر فریم امکانپذیر خواهد بود.
کارکنان OpenAI جمع شدهاند تا بازی هوش مصنوعی را در مقابل انسان تماشا کنند
رپید (Rapid)، چهارچوب تمرینی OpenAI، از دو بخش تشکیل شده است: مجموعهای که یک نسخه از دوتا ۲ را روی یک شبکه LSTM اجرا میکند و گرههای بهینهساز که گرادیان کاهشی همگام (مرحلهای ضروری در یادگیری ماشین) را روی ناوگانی از GPUها اجرا میکنند.
در چند بازی نخست، قهرمانان کنترلشده توسط هوش مصنوعی بهطور بیهدفی در نقشهی بازی راه میروند. با این حال بعد از چند ساعت، آنها در مهارتهای پایهای مانند دفاع و فارمینگ استاد میشوند و در چند روز استراتژیهای پیشرفته را یاد میگیرند.
پیشتر تصور میشد که چنین دستاوردی با یادگیری ماشین امروزی غیرممکن است اما حال میدانیم که این شبکهها قادر به بازی در سطحی حرفهای بوده و میتوانند برنامهریزی طولانیمدت انجام دهند. مسئلهی شوکهکننده این است که از الگوریتمهای موجود استفاده شده است که به اعتقاد بسیاری دارای اشکالات فراوانی بودهاند.
دستاوردی برای هوش مصنوعی
OpenAI Five نخستین سیستم هوش مصنوعی نیست که قادر به شکست حریفان انسانی در بازیهای پیچیده شده است. AlphaZero، یک شبکه عصبی عمیق که توسط دیپمایند، زیرمجموعه آلفابت، توسعه داده شده است، توانسته به سطحی فراانسانی در بازی شطرنج، شوگی و گو دست یابد. یادگیری ماشینی که توسط مالوبا توسعه داده شده (تصاحبشده توسط گوگل در سال ۲۰۱۷) توانست در بازی Ms Pac-Man، بالاتر از هر انسانی، امتیاز ۹۹۹/۹۰۰ را ثبت کند.
اما دستاوردهای OpenAI Five تنها به انجام بازی دوتا محدود نمیشود. این هوش مصنوعی نشانگر دستاوردهای جدیدی برای هوش مصنوعی است؛ دستاوردهایی که نمایانگر آیندهای است که در آن هوش مصنوعی میتواند کارهای به مراتب پیچیدهتری را به انجام برساند.
نظر شما درباره این دستاورد جدید در حوزه هوش مصنوعی چیست؟ آیا آن را قابل توجه میدانید؟ نظرات خود را با ما به اشتراک بگذارید.
نظرات