هوش مصنوعی هنگام دیدن توهم بصری چه واکنشی نشان میدهد؟
وقتی دیمیتریس پاپایلیوپولوس برای اولین بار از چت جیپیتی خواست رنگهای تصاویر را تفسیر کند، عکس معروف لباس به ذهنش آمد. عکس خطای بصری گیجکنندهای که در سال ۲۰۱۵ در اینترنت گسترش یافت.
پاپایلیوپولوس، استادیار مهندسی کامپیوتر دانشگاه ویسکانسین مدیسون، به مطالعهی نوعی هوش مصنوعی مشغول است که بر چتباتهایی مثل چت جیپیتی از اوپن ایآی و جمنای گوگل متمرکز است. او دربارهی چگونگی واکنش این مدلهای هوش مصنوعی به توهمهایی که مغز انسان را فریب میدهند، کنجکاو بود.
سیستم بینایی انسان برای درک اشیای دارای رنگهای ثابت سازگار شده است، بهگونهای که میتوانیم اجسام را همچنان در شرایط نوری مختلف تشخیص دهیم. برای چشم ما یک برگ در میانهی روز به رنگ سبز و هنگام غروب خورشید، نارنجی به نظر میرسد. گرچه این برگ در طول روز، طول موجهای نوری مختلفی را منعکس میکند. این سازگاری باعث میشود مغز ما به شیوههای مختلفی رنگهای کاذب را ببیند و بسیاری از این موارد به توهمهای بصری آشنا منجر میشوند.
پاپایلیوپولوس در مجموعهای از آزمایشها متوجه شد که GPT-4V (جدیدترین نسخهی چت جیپیتی) در دام بسیاری از فریبهای بصری که انسان گرفتار آنها است، میافتد. پاسخهای این چتبات اغلب اوقات منطبق با ادراک انسان هستند. چت جیپیتی رنگ واقعی پیکسلهای تصویر را شناسایی نمیکنند بلکه رنگ یکسانی را که یک شخص ممکن است تشخیص دهد، شرح میدهد. این مسئله حتی دربارهی تصویر ساختگی پاپایلیوپولوس صدق میکند. او تصویر یک ساشیمی را ایجاد کرده بود که با وجود فیلتر آبی باز هم صورتی به نظر میرسید. این عکس، نمونهای از توهم ثبات رنگی است که قبلا به صورت آنلاین پست نشده بود و در نتیجه در هیچکدام از دادههای آموزشی چتبات هوش مصنوعی قرار نگرفته بود.
پاپایلوپولوس تأکید میکند که این آزمایش صرفا نوعی آزمایش علت و معلولی است نه یک پژوهش علمی؛ اما او میگوید واکنشهای شبه انسان چتبات، توضیح شفافی ندارند. در ابتدا او به این فکر کرد که آیا چت جیپیتی تصاویر خام را برای یکپارچهتر کردن پردازش دادهها پاکسازی میکند یا خیر.
با اینحال اوپن ایآی در ایمیلی به ساینتیفیک امریکن گفت چت جیپیتی دمای رنگ و دیگر ویژگیهای تصویر ورودی را پیش از تفسیر GPT-4V تنظیم نمیکند. بدون این توضیح ساده، پاپایلوپولوس میگوید این امکان وجود دارد که مدل مبدل بینایی-زبانی یاد گرفته باشد که رنگ را در متن تفسیر و اشیای داخل تصویر را در مقایسه با یکدیگر ارزیابی کند و پیکسلها را بر این اساس مشابه آنچه مغز انسان انجام میدهد، بسنجد.
بلیک ریچاردز، استادیار علوم کامپیوتر و علوم عصبی در دانشگاه مکگیل، موافق است که مدل یادشده میتواند مانند انسان رنگ را به صورت متنی بیاموزد؛ بدین صورت که یک شیء را شناسایی کند و به چگونگی ظاهر شدن کلی آن شیء واکنش نشان دهد. در رابطه با عکس معروف «لباس» دانشمندان تصور میکنند افراد مختلف به دو شیوهی مجزا رنگها را تفسیر میکنند (برخی تصور میکنند لباس طلایی و سفید است و برخی آن را سیاه و آبی میبینند) و این تفسیرها را بر اساس درک خود از منبع نوری که به پارچه میتابد ارائه میکنند.
این حقیقت که مدل هوش مصنوعی میتواند تصاویر را به شیوهای مشابه تفسیر کند، نشان میدهد چگونه افراد به یک مجموعه مهارت یکسان میرسند. به گفتهی ریچارد:
این حقیقت نشان میدهد که تمایل ما برای انجام این کار حاصل قرار گرفتن در معرض دادهها است.
اگر الگوریتمی که با دادههای آموزشی زیاد تغذیه میشود، شروع به تفسیر ذهنی رنگها کند، بدین معنی است که ادراک انسان و ماشین ممکن است دستکم در این مورد نزدیک به هم باشد.
با اینحال بر اساس پژوهشهای اخیر و نمونههای دیگر، مدلهای هوش مصنوعی بههیچعنوان مانند انسان رفتار نمیکنند. این حقیقت تفاوتهای کلیدی بین چگونگی دید افراد و ماشینها نسبت به جهان را نشان میدهد. برخی پژوهشگرها هم دریافتهاند که نسخهی تکاملیافتهی جدید مدلهای مبدل زبانی بهصورت ناسازگار به توهمها پاسخ میدهد. گاهی اوقات آنها مانند انسان واکنش نشان میدهند؛ در نمونههای دیگر، پاسخهای دقیق و منطقی را ارائه میکنند و گاهی هم واکنش آنها مزخرفگویی احتمالا ناشی از توهم است.
انگیزهی چنین پژوهشهایی اثبات تشابه انسانها و هوش مصنوعی نیست. یکی از تفاوتهای بنیادی این است که مغز ما پر از اتصالهای غیرخطی و حلقههای بازخوردی است که سیگنالها را از سویی به سوی دیگر ارسال میکنند. وقتی چشمهای ما و دیگر سیستمهای ادراکی اطلاعات را از دنیای خارج جمعآوری کنند، این شبکههای تکراری به مغزمان در پر کردن هر گونه شکافی کمک میکنند.
گرچه برخی شبکههای عصبی بازگشتی برای تقلید از این جنبه از مغز انسان رشد کردهاند، بسیاری از مدلهای یادگیری ماشین برای داشتن اتصالهای دوطرفه و تکراری طراحی نشدهاند. محبوبترین مدلهای هوش مصنوعی مولد متکی بر توابع ریاضی «پیشخور» هستند؛ بهطوریکه اطلاعات درون آنها تنها در یک جهت حرکت میکند: از ورودی به سمت خروجی.
مدلهای هوش مصنوعی بههیچعنوان مانند انسان رفتار نمیکنند
بررسی چگونگی واکنش سیستمهای هوش مصنوعی به توهمهای بصری میتواند به دانشمندان کامپیوتر در درک بهتر تواناییها و سوگیریهای مدلهای یادگیری ماشین یکطرفه کمک کند. همچنین پژوهشگرهای هوش مصنوعی متوجه میشوند چه عواملی فراتر از تکرارپذیری برای تقلید از واکنشهای انسان مرتبط هستند.
به نقل از گروهی از دانشمندان کامپیوتر که به ارزیابی چهار مدل بینایی کامپیوتر متنباز میپردازند و یافتههایشان را در کنفرانس دسامبر ۲۰۲۳ منتشر کردند، یکی از عوامل احتمالی، اندازهی مدل است. پژوهشگرها متوجه شدند که مدلهای بزرگتر یا به بیان دیگر مدلهایی که با وزنها و متغیرهای بیشتری برای تعیین پاسخ گسترش یافتهاند، هماهنگی بیشتری با واکنش انسان نسبت به توهم بصری دارند.
به طور کلی، مدلهای هوش مصنوعی آزمایششده، عملکرد خوبی در جستجوی عناصر توهمآمیز یک عکس نداشتند (کمتر از ۳۶ درصد دقت به طور میانگین) و بهطور میانگین تنها در ۱۶ درصد مواقع با واکنشهای انسان هماهنگ بودند. با اینحال این پژوهش همچنین مدلهایی را پیدا کرد که در واکنش به انواع مشخصی از توهمهای بصری، رفتار انسان را بهتر تقلید میکنند.
برای مثال درخواست از این مدلها برای ارزیابی توهمهای پرسپکتیو میتواند به انسانیترین خروجیها منجر شود. در توهمهای مربوط به پرسپکتیو، اشیای با اندازهی برابر در یک تصویر، در صورتی که در پسزمینهای با عمق سهبعدی قرار داده شوند، ابعاد مختلفی پیدا میکنند.
همچنین از مدلها خواسته شد که ابعاد نسبی سایهی اشیای داخل یک تصویر را بررسی کنند. پژوهشگرها این آزمایش را با زوج تصاویر و تصاویر معکوس هم تکرار کردند تا سوگیریهای احتمالی سمت چپ یا راست را در پاسخ مدلها آشکار کنند. اگر واکنشهای بات به تمام پرسشها منطبق با درک استاندارد انسانی بود، پژوهشگرها آن را در دستهی «شبهانسان» قرار میدادند.
برای نوعی دستور که به اندازهگیری توانایی مدلها برای موقعیتیابی اشیای درون یک تصویر اختصاص دارد، دو مدل تستشده در واکنش به توهمهای پرسپکتیو تا ۷۵ درصد شبیه به انسان عمل کردند. در تستهای دیگر و برای مدلهای دیگر، سرعت واکنشهای شبیه به انسان به شکل چشمگیری پائینتر بودند.
بر اساس یک پژوهش پیشانتشار دیگر که در ماه مارس منتشر شد، پژوهشگرها به تست قابلیتهای GPT-4V و جمنای پرو گوگل پرداختند تا ۱۲ دستهی متفاوت از توهمهای بصری را ارزیابی کنند. این توهمها مواردی مثل توهمات شیء غیرممکن را دربر میگرفتند که شامل شکلهای دوبعدی از اشیایی هستند که نمیتوانند در فضای سهبعدی وجود داشته باشند.
همچنین توهمهای تصویر پنهان که در آن سایههای اشیا بدون آنکه فورا قابل تشخیص باشد، درون تصویر گنجانده شده بودند. در ۹ دسته از ۱۲ دسته، مدلها در نشان دادن اتفاقهای یک توهم نسبت به افراد عملکرد ضعیفتری داشتند، بهطوریکه با ۵۹ درصد دقت در برابر ۹۴ درصد دقت انسانی همراه بودند؛ اما در سه دستهی رنگ، زاویهی و توهمهای اندازه، GPT -4V عملکرد نسبتا بهتر یا مقایسهپذیری با ناظران انسانی داشت.
- ۶ دلیل که نباید کورکورانه به هوش مصنوعی اعتماد کنید28 اردیبهشت 02مطالعه '7
به باور واسی احمد، یکی از مؤلفان پژوهش و دانشمندان کاربردی در آزمایشگاه هوش مصنوعی آمازون وب سرویسز، تفاوتها به این بستگی دارند که برای تحلیل توهمها به استدلال کمی نیاز داریم یا کیفی. از سوی دیگر مدلهای یادگیری ماشین باید کمتر در معرض چیزهایی قرار بگیرند که اندازهگیریشان آسان نیست. سه دسته توهمی که هوش مصنوعی بهترین عملکرد را در تحلیلشان دارند، اغلب شامل ویژگیهای قابل اندازهگیری هستند نه صرفا ادراک ذهنی. به گفتهی جویس چای، استاد علوم کامپیوتر و پژوهشگر هوش مصنوعی در دانشگاه میشیگان:
برای توسعهی سیستمهای هوش مصنوعی به درک آسیبپذیریها و نقاط کور آنها نیاز داریم. همچنین باید بدانیم آیا گرایشهای انسانی را تقلید میکنند یا خیر. هماهنگی با انسان برای یک مدل میتواند خوب یا بد باشد. در برخی نمونهها تعدیل سوگیریهای انسانی مطلوب است. برای مثال ابزارهای تشخیص پزشکی هوش مصنوعی که تصاویر رادیولوژی را تحلیل میکنند، در معرض خطای بصری قرار ندارند.
در برخی برنامهها بهتر است هوش مصنوعی از برخی سوگیریهای انسان تقلید کند. برای مثال ممکن است بخواهیم سیستمهای بصری هوش مصنوعی در خودروهای خودران با خطای انسانی منطبق شوند، بهطوریکه پیشبینی و درک خطاهای وسایل نقلیه آسانتر شود؛ اما عامل نگرانی دربارهی خودروهای خودران، خطاهای عجیبشان است که سیستمهای امنیتی روی جاده آمادهی کنترل آنها نیستند.
GPT-4V از اوپن ایآی و دیگر مدلهای یادگیری ماشین بزرگ اغلب اوقات بهصورت جعبههای سیاه توصیف میشوند. سیستمهای غیرشفافی که بدون توضیح خروجیهایی را ارائه میدهند، اما پدیدهی انسانی توهمهای بصری میتواند چشماندازی از اتفاقات درونی آنها را آشکار کند.