چرا انسان هنوز سریع‌تر از هوش مصنوعی آموزش می‌بیند

پنج‌شنبه 24 اسفند 1396 - 12:00

مطالعه 6 دقیقه

یک پژوهش جدید درباره‌ی بازی‌های ویدئویی نشان می‌دهد که چگونه برخورداری انسان از دانش اولیه‌ موجب می‌شود تا سریع‌تر از هوش مصنوعی آموزش ببیند.

تبلیغات

دیپ‌مایند تکنولوژیز که تا چند سال پیش کمپانی کوچک و کمترشناخته‌شده‌ای محسوب می‌شد، در سال ۲۰۱۳ با انتشار مقاله‌ای نوآورانه نشان داد که یک شبکه‌ی عصبی هوش مصنوعی می‌تواند همانند انسان نحوه‌ی انجام بازی‌های ویدئویی دهه‌ی ۸۰ میلادی را با نگاه کردن به صفحه‌ی نمایش آموزش ببیند. این شبکه‌ها سپس تا آنجا پیش رفتند که توانستند بهترین بازیکنان انسانی را شکست دهند.

چند ماه بعد، گوگل این شرکت را با قیمت ۴۰۰ میلیون دلار به تصاحب خود درآورد. دیپ‌مایند از آن زمان تاکنون مشغول اجرای یادگیری عمیق در طیفی از موقعیت‌ها و دستیابی به موفقیت‌های گوناگونی بوده است که از معروف‌ترین آن‌ها می‌توان به شکست قهرمان بازی باستانی گو اشاره کرد.

این تلاش‌ها اقداماتی قابل توجه به‌حساب می‌آیند؛ اما در عین حال یکی از چشمگیرترین محدودیت‌های یادگیری عمیق را برجسته می‌کنند. در واقع ماشین‌هایی که از این فناوری بهره می‌گیرند هنوز در مقایسه با انسان‌ها نیازمند زمان بسیار بیشتری برای یادگیری هستند. چه سری در یادگیری انسان نهفته است که به ما امکان می‌دهد با وجود داشتن تجربه‌ای نسبتا اندک، عملکرد بسیار خوبی از خود نشان دهیم؟

اکنون به لطف تلاش ریچیت دوبی و همکارانش در دانشگاه برکلی کالیفرنیا، تا حدودی به پاسخ این سؤال دست یافته‌ایم. آن‌ها شیوه‌ی تعامل انسان‌ها با بازی‌های ویدئویی را مطالعه کردند تا دریابند چرا انسان‌ها سریع‌تر از هوش مصنوعی می‌توانند نحوه‌ی انجام یک بازی ویدئویی را یاد بگیرند.

در انتها مشخص شد که انسان‌ها هر زمان اقدام به انجام یک بازی جدید می‌کنند، از یک دانش پس‌زمینه (دانش اولیه‌ی) غنی بهره می‌گیرند و این مسئله انجام بازی را به نحو قابل توجهی آسان‌تر می‌سازد. اما مواجه با بازی‌هایی که از این دانش استفاده‌ای نمی‌برند موجب لغزش انسان می‌شود؛ درحالی‌که ماشین‌ها درست به همان نحو به‌آرامی پیشرفت می‌کنند.

برای درک بهتر این موضوع به تصویر بازی ویدئویی سمت چپ (بازی اصلی) نگاه بیاندازید. این بازی بر اساس یک عنوان کلاسیک به ‌نام انتقام مونتزوما (Montezuma’s Revenge) که در سال ۱۹۸۴ برای کامپیوتر آتاری ۸ بیتی منتشر شد، ساخته شده است.

در مورد این بازی هیچ راهنما یا دستورالعملی وجود ندارد و حتی از اینکه کنترل کدام شخصیت در دست شما است نیز هیچ اطلاعی ندارید. همچنین، تنها در صورتی قادر به دریافت بازخورد از بازی هستید که آن را به پایان برسانید.

آیا به نظر خودتان قادر به انجام این بازی هستید؟ اتمام آن چه مدت طول خواهید کشید؟ برای پاسخ به این سؤالات می‌توانید به وب‌سایت این پژوهشگران مراجعه کنید و به انجام دیگر بازی‌های اشاره‌شده در مقاله‌ی آن‌ها نیز بپردازید.

به احتمال فراوان اتمام این بازی برای شما تقریبا یک دقیقه طول خواهد کشید و در این فرآیند احتمالا نزدیک به ۳۰۰۰ حرکت صفحه‌کلید انجام خواهید داد. این همان نتایجی است که دوبی و همکارانش پس از سپردن بازی به ۴۰ نفر از کارکنان وب‌سایت جمع‌سپاری ترک مکانیکی آمازون به‌ دست آوردند. آن‌ها در واقع با پرداخت یک دلار به شرکت‌کنندگان، از آن‌ها خواستند بازی را به پایان برسانند. پژوهشگران در این باره می‌گویند:

اصلا غیر منتظره نیست که یک نفر بتواند به‌سادگی حدس بزند هدف این بازی حرکت دادن شخصیت ربات با راه رفتن روی اشیاء آجرمانند و استفاده از نردبان‌ها برای رسیدن به سکوهای بالاتر و در عین حال جلوگیری از برخورد با شعله‌های آتش و اشیاء صورتی‌رنگ خشمگین و رسیدن به شاهزاده است.

در طرف مقابل، انجام این بازی برای ماشین‌ها دشوار است و بسیاری از الگوریتم‌های استاندارد یادگیری عمیق به‌کلی از حل آن ناتوان هستند؛ زیرا هنگامی که بازخورد تنها پس از اتمام بازی به‌ دست بیاید، هیچ راهی وجود ندارد که الگوریتم بتواند جریان داخل بازی را ارزیابی کند.

بهترین بازیکن ماشینی، یک الگوریتم یادگیری تقویتی مبتنی بر کنجکاوی بود که برای اتمام بازی نزدیک به ۴ میلیون حرکت صفحه‌کلید انجام داد. این مقدار حرکت تقریبا با ۳۷ ساعت انجام پیوسته‌ی بازی مساوی است.

بنابراین، چه چیزی موجب برتری چشمگیر انسان‌ها می‌شود؟ آنچه مشخص شده، این است که ما با ذهن خالی به‌سمت این بازی نمی‌رویم. یک انسان می‌داند که کنترل یک ربات را در دست دارد و اینکه ربات باید از آتش فاصله بگیرد، از نردبان بالا برود، از روی فضاهای خالی بپرد و از مواجه با دشمنان خشمگین پرهیز کند تا سرانجام به شاهزاده برسد. ما به لطف دانش اولیه از تمام این اطلاعات آگاهی داریم و می‌دانیم که برخی اشیاء مشخص ماهیت خوبی دارند؛ درحالی‌که برخی دیگر (نظیر شعله‌های آتش یا چهره‌های خشمگین) اشیائی با ماهیت بد محسوب می‌شوند. ما از قبل اطلاع داریم که سکوها اشیاء را نگه می‌دارند، از نردبان‌ها می‌توان بالا رفت و رفتار اشیاء متناسب با ظاهر آن‌ها خواهد بود. ما نه‌تنها می‌دانیم که جاذبه اشیاء را به سمت پایین می‌کشد؛ بلکه از تأثیرگذاری آن روی اشیائی که از بقیه مجزا هستند و ویژگی‌های متفاوتی دارند نیز آگاه هستیم.

در طرف مقابل، یک ماشین هیچ کدام از این‌ها را نمی‌داند.

بنابراین، دوبی و همکارانش طراحی این بازی را تغییر دادند تا اطلاعات قبلی را مخدوش کنند. آن‌ها سپس مدت‌زمانی که طول کشید تا بازی توسط بازیکنان انسانی به پایان برسد، اندازه گرفتند. سپس اعضای تیم فرض گرفتند که هرگونه افزایش زمان، بیانگر اهمیت آن اطلاعات است.

پژوهشگران می‌گویند:

ما با رندرینگ مجدد، اشیاء مختلف نظیر نردبان‌ها، دشمنان، کلیدها، سکوها و ... نسخه‌های مختلفی از این بازی ویدئویی را طراحی کردیم و بافت‌ها (تکسچرها) را تغییر دادیم.

آن‌ها چنین بافت‌هایی را انتخاب کردند (تصویر سمت راست) تا اشکال مختلف دانش اولیه را پنهان کنند. پژوهشگران همچنین خصوصیات فیزیکی بازی نظیر تأثیر جاذبه و نحوه‌ی تعامل شخصیت اصلی با محیط را تغییر دادند. در هر نسخه، داینامیک پایه (حرکات کلی) بازی دست‌نخورده باقی ماند.

نتیجه‌ی شگفت‌انگیز این کار از زبان دوبی و همکارانش به شرح زیر است:

ما دریافتیم که حذف برخی از عناصر مربوط به دانش اولیه منجر به کاهش شدید سرعت حل بازی توسط بازیکنان انسانی می‌شود.

در واقع، با حذف انواع اطلاعات مربوط به دانش اولیه، مدت زمان لازم برای حل بازی توسط انسان‌ها از یک دقیقه به بیش از ۲۰ دقیقه افزایش یافت.

در طرف مقابل، حذف این اطلاعات در واقع هیچ تفاوتی در زمان یادگیری بازی توسط الگوریتم ماشینی به‌ وجود نیاورد.

تیم تحقیقاتی حتی قادر به رتبه‌بندی انواع مختلف این اطلاعات بر حسب اهمیت بود. حذف معانی اشیاء نظیر عصبانیت یک چهره یا نماد آتش، باعث می‌شود که بازیکنان انسانی زمان بیشتری صرف اتمام بازی کنند. اما پنهان کردن مفهوم اشیاء به‌قدری انجام بازی را دشوارتر کرد که اغلب بازیکنان انسانی از انجام آن سرباز زدند.

دوبی می‌گوید:

ما مجبور شدیم برای تشویق شرکت‌کنندگان به ادامه‌ی کار، مبلغ پرداختی به آن‌ها را تا ۲.۲۵ دلار افزایش دهیم.

این رتبه‌بندی پیوند جالب توجهی با شیوه‌ی یادگیری انسان دارد. روانشناسان دریافته‌اند که نوزادان دوماهه نسبت به اشیائی که انتظار دارند به‌عنوان مجموعه‌های متصل به‌هم حرکت کنند، از یک ادراک اولیه برخوردار هستند. با این حال، نوزادان در این سن قادر به تشخیص دسته‌بندی اشیاء نیستند.

نوزادان در سن بین ۳ تا ۵ ماهگی، دسته‌بندی اشیاء را آموزش می‌بینند و در ۱۸ تا ۲۴ ماهگی قادر به تشخیص اشیاء شخصی می‌شوند. آن‌ها در حدود همین سن، خصوصیات اشیاء را نیز یاد می‌گیرند (روانشناسان این خصوصیت را افوردنس می‌نامند) و در نتیجه، تفاوت بین امکان‌ گام برداشتن روی یک زمین صاف را با عدم امکان‌ قدم زدن روی یک صخره آموزش می‌بینند.

در نهایت معلوم شد که آزمایش‌ دوبی و همکارانش این گونه اطلاعات آموختنی را درست به همان ترتیبی که کودکان آن‌ها را یاد می‌گیرند، رتبه‌بندی کرده است. آن‌ها می‌گویند:

اشاره به این نکته بسیار جالب توجه است که ترتیب افزایش دانش نوزادان با اهمیت دانش اولیه از اشیاء مختلف مطابقت دارد.

پژوهشگران در ادامه می‌نویسند:

پژوهش ما اولین قدم‌ها را به سمت تعیین کمی اهمیت دانش‌های مختلف اولیه‌ای که انسان‌ها در حل کردن بازی‌های ویدئویی به‌ کار می‌گیرند و درک اینکه چگونه این دانش عملکرد انسان را در انجام چنین وظایف پیچیده‌ای بهبود می‌دهد، برمی‌دارد.

این پژوهش شیوه‌ی جالب توجهی پیش‌ روی پژوهشگران کامپیوتری که مشغول کار روی هوش ماشینی هستند، قرار می‌دهد تا الگوریتم‌های خود را با همان دانش اولیه‌ای که انسان‌ها در دوران کودکی به‌ دست می‌آورند، برنامه‌نویسی کنند. با این شیوه، ماشین‌ها قادر خواهند بودسرعت یادگیری خود را به اندازه‌ی انسان افزایش دهند و حتی از ما پیشی بگیرند.

مقاله رو دوست داشتی؟

نظرت چیه؟

میلاد میرکانی

نظرات