ChatGPT در آزمون پزشکی موفق عمل میکند اما نمیتوان به توصیههای پزشکی آن اعتماد کرد
سم آلتمن، مدیرعامل OpenAI چندماه قبل اعلام کرد افراد کم درآمد و کسانی که از خدمات مراقبتهای بهداشتی بهره نمیبرند قادر خواهند بود از چتباتهای هوش مصنوعی مثل ChatGPT بهعنوان مشاور پزشکی استفاده کنند.
ایدهی آلتمن برای استفاده از هوش مصنوعی بهعنوان مشاور پزشکی در ابتدا کمی احمقانه بهنظر میرسید و در حال حاضر نمیتوان به این رویکرد اعتماد کرد. براساس تحقیقات جدید متخصصان پزشکی دانشگاه استنفورد، اگرچه ChatGPT میتواند آزمون مجوز پزشکی ایالاتمتحده را با موفقیت بگذراند، اما در پاسخ به سناریوهای پزشکی بهطرز نگرانکنندهای غیرقابل اعتماد است.
تحقیق دانشمندان استنفورد نشان میدهد تقریباً ۶۰ درصد از پاسخهای ChatGPT به موقعیتهای پزشکی دنیای واقعی با نظر متخصصان انسانی در تضاد است یا بهاندازهی کافی با نظر پزشکان مطابقت ندارد.
محققان استنفورد در آزمایش خود ۶۴ سؤال پزشکی واقعی از ChatGPT پرسیدند از دوازده متخصص بالینی درخواست کردند پاسخهای هوش مصنوعی را مورد ارزیابی قرار دهند.
GPT-4 جدیدترین و قدرتمندترین مدل زبان بزرگ جهان است که ChatGPT از آن استفاده میکند. آزمایشها نشان میدهند بیشاز ۹۰ درصد از پاسخهای این مدل هوش مصنوعی بهاندازهی کافی ایمن هستند اما نمیتوان آنها را الزماً دقیق درنظر گرفت.
بههر حال، ۴۱ درصد از پاسخهای هوش مصنوعی OpenAI با پاسخهای ارائهشده ازطرف متخصصان پزشکی در تضاد بود و ۲۹ درصد از آنها بهقدر مبهم یا نامرتبط بودند که حتی امکان ارزیابی آنها وجود نداشت.
به گزارش فیوچریسم، برخی از افراد از ادعاهای مرتبط با مفید بودن هوش مصنوعی در زمینهی مشاورهی پزشکی، عقبنشینی کردهاند و درعوض آن را ابزار مفیدی برای بررسی مدارک پزشکی یا ارائهی دستورالعمل به بیماران میدانند. مارک سنداک، دانشمند دادههای بالینی دانشگاه دوک میگوید: «ما نباید به ادعای مفید نبودن هوش مصنوعی برای کمک به پزشکان اطمینان کنیم و این موضوعی است که باید بهطور دقیق بررسی شود.»
اگر منصفانه به موضوع نگاه کنیم، انسانهای شرکتکننده در آزمایش محققان استنفورد مزیت مهمی داشتند؛ دسترسی به سوابق سلامتی بیماران که ChatGPT قطعاً از آنها اطلاعی ندارد. محققان میگویند این مورد بهنوبهی خود نقض ذاتی آزمایشهای انجامشده روی هوش مصنوعی را نشان میدهد. بهعبارت دیگر این ارزیابی فقط براساس کتابهای درسی انجام شده است. این مورد همچنین شک سنداک را درمورد روش صحیح انجام آزمایش مذکور تأیید میکند.
نیگام شاه، پروفسور پزشکی در دانشگاه استنفورد که رهبری تحقیق درمورد قابلیتهای مشاورهی پزشکی هوش مصنوعی را برعهده داشته است میگوید: «ما این فناوری را اشتباه ارزیابی کردیم و آنچه باید مورد بررسی قرار گیرد، ساختار ترکیبی انسان درکنار هوش مصنوعی است.»
نیگام شاه در ادامه اظهارداشت از پیشرفتهای GPT-4 نسبتبه نسخهی قبلی آن شگفتزده شده است. درمقام مقایسه، GPT-3.5 در آزمون پزشکی مشابه، فقط در ۲۰ درصد مواقع پاسخهایی مطابق با نظر متخصصان انسانی ارائه داد.