هوش مصنوعی هنگام دیدن توهم بصری چه واکنشی نشان می‌دهد؟

سه‌شنبه ۲۲ خرداد ۱۴۰۳ - ۲۲:۳۰

مطالعه 7 دقیقه

آزمایش‌های مربوط به توهم‌های بصری شباهت‌‌های شگفت‌انگیزی را بین ادراک هوش مصنوعی و انسان آشکار کرده‌اند.

تبلیغات

وقتی دیمیتریس پاپایلیوپولوس برای اولین بار از چت جی‌پی‌تی خواست رنگ‌های تصاویر را تفسیر کند، عکس معروف لباس به ذهنش آمد. عکس خطای بصری گیج‌‌کننده‌ای که در سال ۲۰۱۵ در اینترنت گسترش یافت.

پاپایلیوپولوس، استادیار مهندسی کامپیوتر دانشگاه ویسکانسین مدیسون، به مطالعه‌ی نوعی هوش مصنوعی مشغول است که بر چت‌بات‌هایی مثل چت ‌جی‌پی‌تی از اوپن ای‌آی و جمنای گوگل متمرکز است. او درباره‌ی چگونگی واکنش این مدل‌های هوش مصنوعی به توهم‌هایی که مغز انسان را فریب می‌دهند، کنجکاو بود.

سیستم بینایی انسان برای درک اشیای دارای رنگ‌های ثابت سازگار شده است، به‌گونه‌ای که می‌توانیم اجسام را همچنان در شرایط نوری مختلف تشخیص دهیم. برای چشم ما یک برگ در میانه‌ی روز به رنگ سبز و هنگام غروب خورشید، نارنجی به نظر می‌رسد. گرچه این برگ در طول روز، طول موج‌های نوری مختلفی را منعکس می‌کند. این سازگاری باعث می‌شود مغز ما به شیوه‌های مختلفی رنگ‌های کاذب را ببیند و بسیاری از این موارد به توهم‌های بصری آشنا منجر می‌شوند.

پاپایلیوپولوس در مجموعه‌ای از آزمایش‌ها متوجه شد که GPT-4V (جدیدترین نسخه‌ی چت‌ جی‌پی‌تی) در دام بسیاری از فریب‌های بصری که انسان گرفتار آن‌ها است، می‌افتد. پاسخ‌های این چت‌بات اغلب اوقات منطبق با ادراک انسان هستند. چت جی‌پی‌تی رنگ واقعی پیکسل‌های تصویر را شناسایی نمی‌کنند بلکه رنگ یکسانی را که یک شخص ممکن است تشخیص دهد، شرح می‌دهد. این مسئله حتی درباره‌ی تصویر ساختگی پاپایلیوپولوس صدق می‌کند. او تصویر یک ساشیمی را ایجاد کرده بود که با وجود فیلتر آبی باز هم صورتی به نظر می‌رسید. این عکس، نمونه‌ای از توهم ثبات رنگی است که قبلا به صورت آنلاین پست نشده بود و در نتیجه در هیچ‌کدام از داده‌های آموزشی چت‌بات هوش مصنوعی قرار نگرفته بود.

عکس لباس معروف سال ۲۰۱۵ — عکس معروف لباس که در سال ۲۰۱۵ در اینترنت وایرال شد.

پاپایلوپولوس تأکید می‌کند که این آزمایش صرفا نوعی آزمایش علت و معلولی است نه یک پژوهش علمی؛ اما او می‌گوید واکنش‌های شبه انسان چت‌بات، توضیح شفافی ندارند. در ابتدا او به این فکر کرد که آیا چت جی‌پی‌تی تصاویر خام را برای یکپارچه‌تر کردن پردازش داده‌ها پاکسازی می‌کند یا خیر.

با این‌حال اوپن ای‌آی در ایمیلی به ساینتیفیک امریکن گفت چت‌ جی‌پی‌تی دمای رنگ و دیگر ویژگی‌های تصویر ورودی را پیش از تفسیر GPT-4V تنظیم نمی‌کند. بدون این توضیح ساده، پاپایلوپولوس می‌گوید این امکان وجود دارد که مدل مبدل بینایی-زبانی یاد گرفته باشد که رنگ را در متن تفسیر و اشیای داخل تصویر را در مقایسه با یکدیگر ارزیابی کند و پیکسل‌ها را بر این اساس مشابه آنچه مغز انسان انجام می‌دهد، بسنجد.

بلیک ریچاردز، استادیار علوم کامپیوتر و علوم عصبی در دانشگاه مک‌گیل، موافق است که مدل یادشده می‌تواند مانند انسان رنگ را به صورت متنی بیاموزد؛ بدین صورت که یک شیء را شناسایی کند و به چگونگی ظاهر شدن کلی آن شیء واکنش نشان دهد. در رابطه با عکس معروف «لباس» دانشمندان تصور می‌کنند افراد مختلف به دو شیوه‌ی مجزا رنگ‌ها را تفسیر می‌کنند (برخی تصور می‌کنند لباس طلایی و سفید است و برخی آن را سیاه و آبی می‌بینند) و این تفسیرها را بر اساس درک خود از منبع نوری که به پارچه می‌تابد ارائه می‌کنند.

این حقیقت که مدل هوش مصنوعی می‌تواند تصاویر را به شیوه‌ای مشابه تفسیر کند، نشان می‌دهد چگونه افراد به یک مجموعه مهارت یکسان می‌رسند. به گفته‌ی ریچارد:

این حقیقت نشان می‌دهد که تمایل ما برای انجام این کار حاصل قرار گرفتن در معرض داده‌ها است.

اگر الگوریتمی که با داده‌های آموزشی زیاد تغذیه می‌شود، شروع به تفسیر ذهنی رنگ‌ها کند، بدین معنی است که ادراک انسان و ماشین ممکن است دست‌کم در این مورد نزدیک به هم باشد.

تصویر سیبل دارت (چپ) و تصویر با فیلتر آبی که توهم پایداری رنگ (راست) را نمایش می‌دهد. گرچه مرکز سیبل در نسخه‌ی دستکاری‌شده به رنگ قرمز ظاهر شده است. در واقع پیکسل‌های آن مقادیر آبی و سبز بیشتری دارند.

با این‌حال بر اساس پژوهش‌های اخیر و نمونه‌های دیگر، مدل‌های هوش مصنوعی به‌هیچ‌عنوان مانند انسان رفتار نمی‌کنند. این حقیقت تفاوت‌های کلیدی بین چگونگی دید افراد و ماشین‌ها نسبت به جهان را نشان می‌دهد. برخی پژوهشگرها هم دریافته‌اند که نسخه‌ی تکامل‌یافته‌ی جدید مدل‌های مبدل زبانی به‌صورت ناسازگار به توهم‌ها پاسخ می‌دهد. گاهی اوقات آن‌ها مانند انسان واکنش نشان می‌دهند؛ در نمونه‌های دیگر، پاسخ‌های دقیق و منطقی را ارائه می‌کنند و گاهی هم واکنش آن‌ها مزخرف‌گویی احتمالا ناشی از توهم است.

انگیزه‌ی چنین پژوهش‌هایی اثبات تشابه انسان‌ها و هوش مصنوعی نیست. یکی از تفاوت‌های بنیادی این است که مغز ما پر از اتصال‌های غیرخطی و حلقه‌های بازخوردی است که سیگنال‌ها را از سویی به سوی دیگر ارسال می‌کنند. وقتی چشم‌های ما و دیگر سیستم‌های ادراکی اطلاعات را از دنیای خارج جمع‌آوری کنند، این شبکه‌های تکراری به مغزمان در پر کردن هر گونه شکافی کمک می‌کنند.

گرچه برخی شبکه‌های عصبی بازگشتی برای تقلید از این جنبه از مغز انسان رشد کرده‌اند، بسیاری از مدل‌های یادگیری ماشین برای داشتن اتصال‌های دوطرفه و تکراری طراحی نشده‌اند. محبوب‌ترین مدل‌های هوش مصنوعی مولد متکی بر توابع ریاضی «پیش‌خور» هستند؛ به‌طوری‌که اطلاعات درون آن‌ها تنها در یک جهت حرکت می‌کند: از ورودی به سمت خروجی.

مدل‌های هوش مصنوعی به‌هیچ‌عنوان مانند انسان رفتار نمی‌کنند

بررسی چگونگی واکنش سیستم‌های هوش مصنوعی به توهم‌های بصری می‌تواند به دانشمندان کامپیوتر در درک بهتر توانایی‌ها و سوگیری‌های مدل‌های یادگیری ماشین یک‌طرفه کمک کند. همچنین پژوهشگرهای هوش مصنوعی متوجه می‌شوند چه عواملی فراتر از تکرارپذیری برای تقلید از واکنش‌های انسان مرتبط هستند.

به نقل از گروهی از دانشمندان کامپیوتر که به ارزیابی چهار مدل بینایی کامپیوتر متن‌باز می‌پردازند و یافته‌هایشان را در کنفرانس دسامبر ۲۰۲۳ منتشر کردند، یکی از عوامل احتمالی، اندازه‌ی مدل است. پژوهشگرها متوجه شدند که مدل‌های بزرگ‌تر یا به بیان دیگر مدل‌هایی که با وزن‌ها و متغیرهای بیشتری برای تعیین پاسخ گسترش یافته‌اند، هماهنگی بیشتری با واکنش‌ انسان نسبت به توهم بصری دارند.

به طور‌ کلی، مدل‌های هوش مصنوعی آزمایش‌شده، عملکرد خوبی در جستجوی عناصر توهم‌آمیز یک عکس نداشتند (کمتر از ۳۶ درصد دقت به طور میانگین) و به‌طور میانگین تنها در ۱۶ درصد مواقع با واکنش‌های انسان هماهنگ بودند. با این‌حال این پژوهش همچنین مدل‌هایی را پیدا کرد که در واکنش به انواع مشخصی از توهم‌های بصری، رفتار انسان را بهتر تقلید می‌کنند.

برای مثال درخواست از این مدل‌ها برای ارزیابی توهم‌های پرسپکتیو می‌تواند به انسانی‌ترین خروجی‌ها منجر شود. در توهم‌های مربوط به پرسپکتیو، اشیای با اندازه‌ی برابر در یک تصویر، در صورتی که در پس‌زمینه‌ای با عمق سه‌بعدی قرار داده شوند، ابعاد مختلفی پیدا می‌کنند.

همچنین از مدل‌ها خواسته شد که ابعاد نسبی سایه‌ی اشیای داخل یک تصویر را بررسی کنند. پژوهشگرها این آزمایش را با زوج تصاویر و تصاویر معکوس هم تکرار کردند تا سوگیری‌های احتمالی سمت چپ یا راست را در پاسخ مدل‌ها آشکار کنند. اگر واکنش‌های بات به تمام پرسش‌ها منطبق با درک استاندارد انسانی بود، پژوهشگرها آن را در دسته‌ی «شبه‌انسان» قرار می‌دادند.

برای نوعی دستور که به اندازه‌گیری توانایی مدل‌ها برای موقعیت‌یابی اشیای درون یک تصویر اختصاص دارد، دو مدل تست‌شده در واکنش به توهم‌های پرسپکتیو تا ۷۵ درصد شبیه به انسان عمل کردند. در تست‌های دیگر و برای مدل‌های دیگر، سرعت واکنش‌های شبیه به انسان به شکل چشمگیری پائین‌تر بودند.

بر اساس یک پژوهش پیش‌انتشار دیگر که در ماه مارس منتشر شد، پژوهشگر‌ها به تست قابلیت‌های GPT-4V و جمنای پرو گوگل پرداختند تا ۱۲ دسته‌ی متفاوت از توهم‌های بصری را ارزیابی کنند. این توهم‌ها مواردی مثل توهمات شیء غیرممکن را دربر می‌گرفتند که شامل شکل‌های دوبعدی از اشیایی هستند که نمی‌توانند در فضای سه‌بعدی وجود داشته باشند.

همچنین توهم‌های تصویر پنهان که در آن سایه‌های اشیا بدون آنکه فورا قابل تشخیص باشد، درون تصویر گنجانده شده بودند. در ۹ دسته از ۱۲ دسته، مدل‌ها در نشان دادن اتفاق‌های یک توهم نسبت به افراد عملکرد ضعیف‌تری داشتند، به‌طوری‌که با ۵۹ درصد دقت در برابر ۹۴ درصد دقت انسانی همراه بودند؛ اما در سه دسته‌ی رنگ، زاویه‌ی و توهم‌های اندازه، GPT -4V عملکرد نسبتا بهتر یا مقایسه‌پذیری با ناظران انسانی داشت.

بیشتر بخوانید:

تصاویر خطای دید ساخته‌شده با هوش مصنوعی، ما را بیش‌از پیش فریب می‌دهند
7 مهر 02
مطالعه '8
۶ دلیل که نباید کورکورانه به هوش مصنوعی اعتماد کنید
28 اردیبهشت 02
مطالعه '7

به باور واسی احمد، یکی از مؤلفان پژوهش و دانشمندان کاربردی در آزمایشگاه هوش مصنوعی آمازون وب سرویسز، تفاوت‌ها به این بستگی دارند که برای تحلیل توهم‌ها به استدلال کمی نیاز داریم یا کیفی. از سوی دیگر مدل‌های یادگیری ماشین باید کمتر در معرض چیزهایی قرار بگیرند که اندازه‌گیری‌شان آسان نیست. سه دسته توهمی که هوش مصنوعی بهترین عملکرد را در تحلیل‌شان دارند، اغلب شامل ویژگی‌های قابل اندازه‌گیری هستند نه صرفا ادراک ذهنی. به گفته‌ی جویس چای، استاد علوم کامپیوتر و پژوهشگر هوش مصنوعی در دانشگاه میشیگان:

برای توسعه‌ی سیستم‌های هوش مصنوعی به درک آسیب‌پذیری‌ها و نقاط کور آن‌ها نیاز داریم. همچنین باید بدانیم آیا گرایش‌های انسانی را تقلید می‌کنند یا خیر. هماهنگی با انسان برای یک مدل می‌تواند خوب یا بد باشد. در برخی نمونه‌ها تعدیل سوگیری‌های انسانی مطلوب است. برای مثال ابزارهای تشخیص پزشکی هوش مصنوعی که تصاویر رادیولوژی را تحلیل می‌کنند، در معرض خطای بصری قرار ندارند.

در برخی برنامه‌ها بهتر است هوش مصنوعی از برخی سوگیری‌های انسان تقلید کند. برای مثال ممکن است بخواهیم سیستم‌های بصری هوش مصنوعی در خودروهای خودران با خطای انسانی منطبق شوند، به‌طوری‌که پیش‌بینی و درک خطاهای وسایل نقلیه آسان‌تر شود؛ اما عامل نگرانی درباره‌ی خودروهای خودران، خطاهای عجیبشان است که سیستم‌های امنیتی روی جاده آماده‌ی کنترل آن‌ها نیستند.

GPT-4V از اوپن ای‌آی و دیگر مدل‌های یادگیری ماشین بزرگ اغلب اوقات به‌صورت جعبه‌های سیاه توصیف می‌شوند. سیستم‌های غیرشفافی که بدون توضیح خروجی‌هایی را ارائه می‌دهند، اما پدیده‌ی انسانی توهم‌های بصری می‌تواند چشم‌اندازی از اتفاقات درونی آن‌ها را آشکار کند.

مقاله رو دوست داشتی؟

نظرت چیه؟

سارا ارجمند

داغ‌ترین مطالب روز

هوش مصنوعی هنگام دیدن توهم بصری چه واکنشی نشان می‌دهد؟

مقاله رو دوست داشتی؟

نظرت چیه؟

سارا ارجمند

دنبال کردن

نظرات