دست ربات درحال چیدن توت فرنگی

وقتی چت‌بات‌ها دربرابر توت‌فرنگی شکست می‌خورند

دوشنبه ۱۲ شهریور ۱۴۰۳ - ۱۳:۳۰مطالعه 10 دقیقه
حرف «r» چند بار در کلمه‌ی «Strawberry» تکرار شده است؟ پاسخ مدل‌های هوش مصنوعی قدرتمند مانند GPT-4 و Claude به این سؤال احتمالاً شما را شگفت‌زده کند.
تبلیغات

مدل‌های زبانی بزرگ (LLM) قادرند در عرض چند ثانیه مقاله بنویسند، معادلات را حل کنند و حتی داستان‌پردازی یا کدنویسی کنند. از دیدگاه علمی، این مدل‌ها می‌توانند ترابایت‌ها داده را با سرعتی بسیار بیشتر از مغز انسان تحلیل کنند. با این حال، این هوش مصنوعی‌ به‌ظاهر همه‌چیزدان، گاهی دچار چنان اشتباهات مضحکی می‌شود که کل اینترنت آن را دست می‌اندازد. اینجا است که می‌توانیم نفس راحتی بکشیم؛ چراکه می‌فهمیم هنوز زمان تسلیم شدن انسان به هوش مصنوعی فرا نرسیده است.

اخیراً کاربران اینترنت متوجه شدند که چت‌بات‌ها اعم از ChatGPT و Claude به‌طرز عجیبی نمی‌توانند تعداد حروف R را در کلمه‌هایی مثل Strawberry یا Raspberry به‌درستی تشخیص دهند. برای مثال، ChatGPT مبتنی‌بر مدل GPT-4o ابتدا گفت فقط دو حرف R در Strawberry وجود دارد. بار دیگر که گفت سه و وقتی با پرامپت «پاسخ اشتباه» کاربر روبه‌رو شد، بلافاصله جوابش را به همان دو R تغییر داد. حتی مدل زبانی Claude هم به‌اشتباه حروف R را ابتدا دو و بعد فقط یک R حساب کرد.

شمارش تعداد r در کلمه Strawberry - چت‌جی‌پی‌تی
شمارش تعداد r در کلمه Strawberry - چت‌جی‌پی‌تی
شمارش تعداد r در کلمه Strawberry - کلاد

ناتوانی مدل‌های زبانی بزرگ در درک دقیق حروف و هجاها، نشان‌دهنده‌ی یک حقیقت بزرگ‌تر است که اغلب فراموش می‌کنیم: این سیستم‌ها مانند انسان قدرت تفکر ندارند؛ زیرا آن‌ها انسان نیستند.

اغلب فراموش می‌کنیم که مدل‌های زبانی بزرگ، انسان نیستند

اکثر مدل‌های زبانی بزرگ براساس معماری یادگیری عمیق به نام «ترانسفورمر» ساخته شده‌اند. مدل‌های ترانسفورمر، متن را به واحدهای کوچکی به نام «توکن» تقسیم می‌کنند. این توکن‌ها می‌توانند مجموعه‌ای از کلمات کامل، هجاها، یا حتی حروف باشند که به مدل مورد استفاده بستگی دارد.

متیو گزدیال (Matthew Guzdial)، محقق هوش مصنوعی و استادیار دانشگاه آلبرتا، در مصاحبه‌ای با سایت TechCrunch، عملکرد مدل‌های بزرگ زبانی را اینگونه توضیح می‌دهد:

مدل‌های بزرگ زبانی که بر اساس معماری ترانسفورمر توسعه یافته‌اند، به‌طور خاص قادر به تشخیص معنای دقیق کلمات یا توکن‌های دریافتی نیستند. آنچه هنگام وارد کردن یک پرسش رخ می‌دهد این است که متن به یک واحد کدگذاری‌شده تبدیل می‌شود. به عنوان مثال، وقتی مدل کلمه‌ی «the» را می‌بیند، یک کدگذاری برای معنای «the» دارد، اما این را نمی‌داند که این کلمه از حروف «h» ،«t» و «e» تشکیل شده است.
- متیو گُزدیال، دانشگاه آلبرتا

چنین موضوعی این دلیل است که مدل‌های ترانسفورمر نمی‌توانند متن را به‌طور مستقیم به‌صورت دنباله‌ای از حروف، پردازش کنند. در عوض، متن را به بردارهای عددی تبدیل می‌کنند که به مدل کمک می‌کند تا پاسخی منطقی ارائه دهد. برای مثال، کلمه‌ی «strawberry» احتمالاً به دو توکن تقسیم می‌شود که نمایانگر بخش‌هایی از کلمه هستند که مدل از طریق آموزش فرا گرفته است: «straw» و «berry».

در واقع این توکن‌ها به‌صورت رشته‌ای از اعداد کدگذاری می‌شوند که معمولاً با حروف کلمه‌ی اصلی رابطه‌ی یک‌به‌یک و برگشت‌پذیر ندارند. در مثال‌هایی مانند «strawberry»، هوش مصنوعی ممکن است کلمه را به‌صورت دو توکن بُرداری مانند 496 و 675 ببیند و نه به‌صورت حروف مجزا.

مدل‌های زبانی بزرگ برای کارهایی که نیاز به شمارش دقیق یا تحلیل حروف مجزا دارند، مناسب نیستند

به عبارت ساده‌تر، مدل شاید بداند که توکن‌های «straw» و «berry» با هم کلمه‌ی «strawberry» را تشکیل می‌دهند، اما نمی‌فهمد که «strawberry» دقیقاً از چه حروفی تشکیل شده است. بنابراین حتی نمی‌تواند به شما بگوید که این کلمه چند حرف دارد؛ چه برسد به اینکه تعداد حروف «r» در آن را بداند!

Counting Rs in Strawberry tweet
شمارش اشتباه تکرار حروف در ChatGPT دستمایه‌ی شوخی‌های اینترنتی شده است.
Twitter

متأسفانه، برای حل این مشکل راه‌حل آسانی وجود ندارد، زیرا این محدودیت در ساختار اساسی مدل‌ها ریشه دارد. شریدن فوشت، دانشجوی دکترا در دانشگاه نورث‌ایسترن که در حال تحقیق درباره‌ی قابلیت تفسیر مدل‌های زبانی بزرگ است، می‌گوید:

اینکه دقیقاً یک واژه برای یک مدل زبانی چه معنایی دارد، کمی پیچیده است. حتی اگر کارشناسان انسانی هم بتوانند روی یک بخش‌بندی به اندازه‌ی یک واژه‌ی کامل توافق کنند، احتمالاً مدل‌ها باز هم به شکستن بیشتر واژه‌ها ادامه خواهند داد. حدس من این است که به دلیل این نوع ابهام، هیچ توکن‌سازی بی‌عیب‌ونقصی وجود ندارد.

این مشکل زمانی پیچیده‌تر می‌شود که یک مدل زبانی بزرگ، زبان‌های بیشتری را یاد می‌گیرد. به عنوان مثال، در برخی از روش‌های توکن‌سازی شاید فرض شود که همیشه یک فاصله در یک جمله نشان‌دهنده‌ی شروع یک کلمه‌ی جدید است، اما بسیاری از زبان‌ها مانند چینی، ژاپنی و تایلندی از فاصله‌ برای جداکردن کلمات استفاده نمی‌کنند.

فوشت افزود: «احتمالاً بهتر است که مدل‌ها به‌جای استفاده از توکن‌سازی، مستقیماً به حروف نگاه کنند، اما در حال حاضر این کار برای ترانسفورمرها از نظر محاسباتی ممکن نیست.» در یک مطالعه در سال ۲۰۲۳، ینی جون (Yennie Jun)، پژوهشگر هوش مصنوعی در دیپ‌مایند، نشان داد که برخی زبان‌ها تا ۱۰ برابر بیشتر از انگلیسی نیاز به توکن‌سازی دارند تا همان معنا را انتقال دهند.

پردازش توکن‌هایی به اندازه‌ی یک حرف، خارج از توانایی ترانسفورمرهای امروزی است

مولدهای تصویر مانند میدجرنی و DALL-E از معماری ترانسفورمر که در موتورهای تولیدکننده متنی مانند ChatGPT استفاده می‌شود، بهره نمی‌برند. در عوض، این تولیدکننده‌های تصویر معمولاً از مدل‌های انتشاری (Diffusion Models) استفاده می‌کنند که نویز را به تصویری معنادار تبدیل می‌کنند.

مدل‌های انتشاری براساس پایگاه‌های داده‌ی بزرگ تصاویر آموزش می‌بینند و هدفشان این است که تصاویری را مشابه آنچه در داده‌های آموزشی دیده‌اند، بازآفرینی کنند. مدل‌های انتشاری به‌تدریج و در طی فرایندی چندمرحله‌ای، نویز موجود در تصویر اولیه را کاهش داده و جزئیات را تکمیل می‌کنند تا در نهایت به یک تصویر واضح و کامل دست یابند.

مولدهای تصویر معمولاً در تولید اشیای بزرگ‌تری مانند خودروها و چهره‌های انسان‌ها عملکرد بهتری دارند و برعکس، در ایجاد جزئیات کوچک‌تر مانند انگشتان و دست‌خط ضعیف ظاهر می‌شوند. این موضوع می‌تواند به این دلیل باشد که جزئیات کوچک‌تر معمولاً به اندازه‌ی مفاهیم کلی، به‌طور برجسته در مجموعه‌های آموزشی ظاهر نمی‌شوند؛ برای مثال، نحوه‌ی آویزان شدن برگ‌های سبز از شاخه‌های درخت یا چگونگی اتصال انگشتان به دست. با این حال، مشکلات مرتبط با مدل‌های مولد تصویر ممکن است نسبت به مشکلات مدل‌های ترانسفورمری، آسان‌تر حل شوند.

برای نمونه، با تمرکز بیشتر بر تصاویر واقعی دست‌های انسان، برخی از مولدهای تصویر در نمایش دست‌ها و انگشتان بهبود یافته‌اند. در این زمینه، گُزدیال اینگونه توضیح می‌دهد:

تا همین پارسال، تمامی این مدل‌ها در تولید تصاویر انگشتان بسیار ضعیف بودند و این مشکل مشابهی است که در تولید متن نیز وجود دارد. این مدل‌ها در جزئیات محلی عملکرد بسیار خوبی دارند؛ بنابراین اگر به دستی با شش یا هفت انگشت نگاه کنید، ممکن است بگویید: «اوه، این شبیه به یک انگشت است.» به‌طور مشابه، در متن‌های تولیدشده نیز ممکن است بگویید: «این شبیه به حرف H و آن شبیه به حرف P است»، اما در ساختاردهی این اجزا با هم، هنوز بسیار ضعیف عمل می‌کنند.

اگر از یک مولد تصویر هوش مصنوعی بخواهید که منویی برای یک رستوران ایرانی ایجاد کند، احتمالاً موارد معمولی مانند «قرمه» را خواهید دید، اما ممکن است با گزینه‌هایی مانند «کِبات»، «فبنجان» و «فسبر» نیز روبه‌رو شوید. در این حالت، هوش مصنوعی با کنار هم قرار دادن توکن‌هایی که به‌تنهایی معنی دارند، شروع به خلق کلمه‌هایی می‌کند که وجود خارجی ندارند؛ یعنی دو توکن معنادار را تبدیل به یک ترکیب بی‌معنی می‌کند.

به زبانی ساده‌تر، مدل زبانی بزرگ که دچار نوعی هذیان‌گویی شده است، غذاهای خیالی با نام‌های به‌هم‌ریخته ایجاد می‌کند.

چاره‌ای که وضعیت مدل‌های بزرگ زبانی را در مقابل توهم مصنوعی ایمن می‌کند، استفاده از استدلال در هنگام پیش‌بینی و تولید توکن‌های بعدی است.

در همین زمینه، گوگل دیپ‌مایند اخیراً از سیستم‌های هوش مصنوعی استدلال‌گر جدیدی با نام‌های AlphaProof و AlphaGeometry 2 رونمایی کرده است که به‌طور ویژه برای استدلال‌های هندسی طراحی شده‌اند.

گوگل اعلام کرده که این دو سیستم توانسته‌اند چهار مسئله از مجموع شش مسئله‌ی المپیاد بین‌المللی ریاضی را با موفقیت حل کنند. این عملکرد به قدری برجسته است که اگر این سیستم‌ها در آن مسابقه شرکت می‌کردند، می‌توانستند مدال نقره را کسب کنند.

سوالات المپیاد ریاضی

گوگل تنها شرکتی نیست که به هوش مصنوعی با قابلیت استدلال فکر می‌کند. در حالی که تصاویر طنزآمیز درباره‌ی نحوه‌ی نوشتن «Strawberry» در سراسر اینترنت منتشر می‌شود، شرکت OpenAI در حال کار روی پروژه‌ی جدیدی با اسم رمز «توت‌فرنگی» (Strawberry) است. این پروژه‌ی جدید قصد دارد در زمینه‌ی استدلال حتی بهتر از پیش عمل کند.

توت‌فرنگی اسم رمز پروژه‌ی جدید OpenAI است که می‌خواهد دقت ChatGPT را افزایش دهد

با کمبود داده‌های آموزشی در اینترنت، رشد مدل‌های زبانی بزرگ محدود می‌شود؛ اما به نظر می‌رسد که پروژه‌ی توت‌فرنگی قادر است داده‌های مصنوعی دقیقی تولید کند تا به بهبود مدل‌های زبانی OpenAI کمک کند.

در قلب قابلیت‌های پروژه‌ی توت‌فرنگی، یک تکنیک به نام «خودآموز استدلال‌گر» (Self-Taught Reasoner) قرار دارد. این تکنیک شبیه به این است که به هوش مصنوعی یک آینه داده شود تا بتواند تمرین‌های ذهنی خود را انجام دهد. این روش در حال هدایت هوش مصنوعی به سمتی است که از تشخیص ساده‌ی الگوها فراتر برود و به حوزه‌ی واقعی درک از روی حروف و حل مسائل پیچیده‌تر وارد شود.

استدلال هوش مصنوعی
خودآموز استدلال‌گر به هوش مصنوعی اجازه می‌دهد تا درک مسائل پیچیده‌ را داشته باشد.

اما چگونه یک مدل هوش مصنوعی می‌تواند از ChatGPT-4 به چیزی این‌چنین پیشرفته ارتقا یابد؟ پاسخ این سؤال را می‌توان در پدیده‌ای به نام «گراکینگ» (Grokking) یافت که آلن اسمیتسون از دانشگاه دوبلین ایرلند، آن را چنین توضیح داده است:

اگر مدلی را با یک سری داده‌ آموزش دهید تا به سطح مشخصی از عملکرد برسد و سپس به آموزش آن ادامه دهید، در نهایت ممکن است توانایی استنباط مدل به‌طور ناگهانی بهبود یابد.

او این لحظه را با «یافتن مسیر» مقایسه می‌کند؛ لحظه‌ای که مدل هوش مصنوعی ناگهان «درک» می‌کند، درست مانند فردی که در حال یادگیری ریاضیات است و پس از مدتی مطالعه، ناگهان همه چیز برایش روشن می‌شود.

اسمیتسون می‌گوید: «ناگهان توانایی مدل‌ها در استنتاج، استدلال و پردازش منطقی به‌طور چشمگیری افزایش می‌یابد، گویی یک جهش عظیم اتفاق افتاده؛ اما نمی‌دانیم چرا. نکته‌ی جالب این است که این بهبود از طریق صرف زمان بیشتر در حین آموزش مدل قابل دستیابی است. این پدیده هیچ ارتباطی با تنظیمات دقیق مدل یا مهندسی درخواست‌ها ندارد، بلکه به ساختار مدل و تعداد سیکل‌های آموزش ارتباط دارد.»

به‌زودی نیاز به داده‌های فراوان آموزشی برای افزایش دقت مدل‌های زبانی بزرگ، برطرف خواهد شد

یکی از نتایج جالب پدیده‌‌ی «گراکینگ» این است که دیگر نیازی به مقدار زیادی داده‌ی آموزشی نیست. درحالی که قبلاً رقابت بر سر استفاده از داده‌های آموزشی بیشتر و توسعه‌ی مدل‌های بزرگ‌تر بود که نیاز به انرژی و هزینه هنگفتی برای پردازش داشتند، اکنون به نظر می‌رسد که مدل‌های کوچک‌تر (مانند آنچه شرکت فرانسوی Mistral توسعه داده است) می‌توانند با صرف زمان بیشتر برای آموزش، بهبود یابند.

استارتاپ فرانسوی با مدل زبانی Large 2 به جدیدترین و قوی‌ترین مدل‌های هوش مصنوعی OpenAI و متا پاسخ داد
مدل زبانی بزرگ میسترال، قدرت مشابه و هزینه‌ی کمتری درمقایسه‌با مدل‌های بزرگ متا و OpenAI دارد.
استارتاپ فرانسوی با مدل زبانی Large 2 به جدیدترین و قوی‌ترین مدل‌های هوش مصنوعی OpenAI و متا پاسخ داد

بر اساس گزارشی از The Information، مدل حاصل از پروژه‌ی توت‌فرنگی OpenAI نه‌تنها می‌تواند پازل‌های کلمات را که نیاز به تفکر خلاقانه و تشخیص الگو دارند، حل کند؛ بلکه می‌تواند از چالش‌هایی نظیر حل معادلات ریاضی (که قبلاً با آن‌ها مواجه نشده است) نیز سربلند عبور کند.

طرح مفهومی ربات در حال مصرف آب
زومیت

پروژه‌ی توت‌فرنگی بیش از آنکه شامل ابزارهای جدید و پیشرفته‌ی تکنولوژی باشد، نمایانگر یک تغییر اساسی در انتظارات ما از هوش مصنوعی است. سازندگان مدل‌های زبانی بزرگ می‌توانند هوش مصنوعی را وارد دورانی کنند که از آن نه‌تنها به‌عنوان ابزار، بلکه به‌عنوان یک همکار توانمند که قادر به پاسخگویی به چالش‌های پیچیده است، استفاده شود.

هوش مصنوعی وارد دورانی می‌شود که در آن در نقش یک همکار توانمند ظاهر می‌شود

در حالی که شرکت OpenAI هنوز به‌طور رسمی تاریخ انتشار نسخه‌ی توت‌فرنگی یا ادغام آن با ChatGPT را اعلام نکرده است، ناظران صنعت به‌دقت تحرکات این شرکت را دنبال می‌کنند. پست ماه گذشته‌ی سم آلتمن در پلتفرم ایکس، که حاوی اشارات مبهمی بود، تنها به گمانه‌زنی‌ها درخصوص رونمایی در آینده‌ی نزدیک دامن زده است.

Sam Altman tweet about strawberry fruit and project
توییت سم آلتمن در مورد باغ و اشاره به پروژه‌ی توت‌فرنگی
Twitter

آلتمن در این توییت، با انتشار تصویری از گلدانی حاوی توت‌فرنگی، اظهارات دوپهلو و مرموزی درباره‌ی پروژه‌ی مخفی شرکتش بیان کرد. به نظر می‌رسد آینده‌ی هوش مصنوعی به‌طرز محسوسی رنگ و بوی میوه‌‌ها را به خود گرفته است.

اکنون باید دید آیا این تحول جدید می‌تواند هوش مصنوعی را یک پله به هوش انسان‌گونه نزدیک کند یا خیر.

مقاله رو دوست داشتی؟
نظرت چیه؟
داغ‌ترین مطالب روز
تبلیغات

نظرات