وقتی چتباتها دربرابر توتفرنگی شکست میخورند
دوشنبه ۱۲ شهریور ۱۴۰۳ - ۱۳:۳۰مطالعه 10 دقیقهمدلهای زبانی بزرگ (LLM) قادرند در عرض چند ثانیه مقاله بنویسند، معادلات را حل کنند و حتی داستانپردازی یا کدنویسی کنند. از دیدگاه علمی، این مدلها میتوانند ترابایتها داده را با سرعتی بسیار بیشتر از مغز انسان تحلیل کنند. با این حال، این هوش مصنوعی بهظاهر همهچیزدان، گاهی دچار چنان اشتباهات مضحکی میشود که کل اینترنت آن را دست میاندازد. اینجا است که میتوانیم نفس راحتی بکشیم؛ چراکه میفهمیم هنوز زمان تسلیم شدن انسان به هوش مصنوعی فرا نرسیده است.
اخیراً کاربران اینترنت متوجه شدند که چتباتها اعم از ChatGPT و Claude بهطرز عجیبی نمیتوانند تعداد حروف R را در کلمههایی مثل Strawberry یا Raspberry بهدرستی تشخیص دهند. برای مثال، ChatGPT مبتنیبر مدل GPT-4o ابتدا گفت فقط دو حرف R در Strawberry وجود دارد. بار دیگر که گفت سه و وقتی با پرامپت «پاسخ اشتباه» کاربر روبهرو شد، بلافاصله جوابش را به همان دو R تغییر داد. حتی مدل زبانی Claude هم بهاشتباه حروف R را ابتدا دو و بعد فقط یک R حساب کرد.
ناتوانی مدلهای زبانی بزرگ در درک دقیق حروف و هجاها، نشاندهندهی یک حقیقت بزرگتر است که اغلب فراموش میکنیم: این سیستمها مانند انسان قدرت تفکر ندارند؛ زیرا آنها انسان نیستند.
اغلب فراموش میکنیم که مدلهای زبانی بزرگ، انسان نیستند
اکثر مدلهای زبانی بزرگ براساس معماری یادگیری عمیق به نام «ترانسفورمر» ساخته شدهاند. مدلهای ترانسفورمر، متن را به واحدهای کوچکی به نام «توکن» تقسیم میکنند. این توکنها میتوانند مجموعهای از کلمات کامل، هجاها، یا حتی حروف باشند که به مدل مورد استفاده بستگی دارد.
متیو گزدیال (Matthew Guzdial)، محقق هوش مصنوعی و استادیار دانشگاه آلبرتا، در مصاحبهای با سایت TechCrunch، عملکرد مدلهای بزرگ زبانی را اینگونه توضیح میدهد:
مدلهای بزرگ زبانی که بر اساس معماری ترانسفورمر توسعه یافتهاند، بهطور خاص قادر به تشخیص معنای دقیق کلمات یا توکنهای دریافتی نیستند. آنچه هنگام وارد کردن یک پرسش رخ میدهد این است که متن به یک واحد کدگذاریشده تبدیل میشود. به عنوان مثال، وقتی مدل کلمهی «the» را میبیند، یک کدگذاری برای معنای «the» دارد، اما این را نمیداند که این کلمه از حروف «h» ،«t» و «e» تشکیل شده است.- متیو گُزدیال، دانشگاه آلبرتا
چنین موضوعی این دلیل است که مدلهای ترانسفورمر نمیتوانند متن را بهطور مستقیم بهصورت دنبالهای از حروف، پردازش کنند. در عوض، متن را به بردارهای عددی تبدیل میکنند که به مدل کمک میکند تا پاسخی منطقی ارائه دهد. برای مثال، کلمهی «strawberry» احتمالاً به دو توکن تقسیم میشود که نمایانگر بخشهایی از کلمه هستند که مدل از طریق آموزش فرا گرفته است: «straw» و «berry».
در واقع این توکنها بهصورت رشتهای از اعداد کدگذاری میشوند که معمولاً با حروف کلمهی اصلی رابطهی یکبهیک و برگشتپذیر ندارند. در مثالهایی مانند «strawberry»، هوش مصنوعی ممکن است کلمه را بهصورت دو توکن بُرداری مانند 496 و 675 ببیند و نه بهصورت حروف مجزا.
مدلهای زبانی بزرگ برای کارهایی که نیاز به شمارش دقیق یا تحلیل حروف مجزا دارند، مناسب نیستند
به عبارت سادهتر، مدل شاید بداند که توکنهای «straw» و «berry» با هم کلمهی «strawberry» را تشکیل میدهند، اما نمیفهمد که «strawberry» دقیقاً از چه حروفی تشکیل شده است. بنابراین حتی نمیتواند به شما بگوید که این کلمه چند حرف دارد؛ چه برسد به اینکه تعداد حروف «r» در آن را بداند!
متأسفانه، برای حل این مشکل راهحل آسانی وجود ندارد، زیرا این محدودیت در ساختار اساسی مدلها ریشه دارد. شریدن فوشت، دانشجوی دکترا در دانشگاه نورثایسترن که در حال تحقیق دربارهی قابلیت تفسیر مدلهای زبانی بزرگ است، میگوید:
اینکه دقیقاً یک واژه برای یک مدل زبانی چه معنایی دارد، کمی پیچیده است. حتی اگر کارشناسان انسانی هم بتوانند روی یک بخشبندی به اندازهی یک واژهی کامل توافق کنند، احتمالاً مدلها باز هم به شکستن بیشتر واژهها ادامه خواهند داد. حدس من این است که به دلیل این نوع ابهام، هیچ توکنسازی بیعیبونقصی وجود ندارد.
این مشکل زمانی پیچیدهتر میشود که یک مدل زبانی بزرگ، زبانهای بیشتری را یاد میگیرد. به عنوان مثال، در برخی از روشهای توکنسازی شاید فرض شود که همیشه یک فاصله در یک جمله نشاندهندهی شروع یک کلمهی جدید است، اما بسیاری از زبانها مانند چینی، ژاپنی و تایلندی از فاصله برای جداکردن کلمات استفاده نمیکنند.
فوشت افزود: «احتمالاً بهتر است که مدلها بهجای استفاده از توکنسازی، مستقیماً به حروف نگاه کنند، اما در حال حاضر این کار برای ترانسفورمرها از نظر محاسباتی ممکن نیست.» در یک مطالعه در سال ۲۰۲۳، ینی جون (Yennie Jun)، پژوهشگر هوش مصنوعی در دیپمایند، نشان داد که برخی زبانها تا ۱۰ برابر بیشتر از انگلیسی نیاز به توکنسازی دارند تا همان معنا را انتقال دهند.
پردازش توکنهایی به اندازهی یک حرف، خارج از توانایی ترانسفورمرهای امروزی است
مدلهای انتشاری براساس پایگاههای دادهی بزرگ تصاویر آموزش میبینند و هدفشان این است که تصاویری را مشابه آنچه در دادههای آموزشی دیدهاند، بازآفرینی کنند. مدلهای انتشاری بهتدریج و در طی فرایندی چندمرحلهای، نویز موجود در تصویر اولیه را کاهش داده و جزئیات را تکمیل میکنند تا در نهایت به یک تصویر واضح و کامل دست یابند.
مولدهای تصویر معمولاً در تولید اشیای بزرگتری مانند خودروها و چهرههای انسانها عملکرد بهتری دارند و برعکس، در ایجاد جزئیات کوچکتر مانند انگشتان و دستخط ضعیف ظاهر میشوند. این موضوع میتواند به این دلیل باشد که جزئیات کوچکتر معمولاً به اندازهی مفاهیم کلی، بهطور برجسته در مجموعههای آموزشی ظاهر نمیشوند؛ برای مثال، نحوهی آویزان شدن برگهای سبز از شاخههای درخت یا چگونگی اتصال انگشتان به دست. با این حال، مشکلات مرتبط با مدلهای مولد تصویر ممکن است نسبت به مشکلات مدلهای ترانسفورمری، آسانتر حل شوند.
برای نمونه، با تمرکز بیشتر بر تصاویر واقعی دستهای انسان، برخی از مولدهای تصویر در نمایش دستها و انگشتان بهبود یافتهاند. در این زمینه، گُزدیال اینگونه توضیح میدهد:
تا همین پارسال، تمامی این مدلها در تولید تصاویر انگشتان بسیار ضعیف بودند و این مشکل مشابهی است که در تولید متن نیز وجود دارد. این مدلها در جزئیات محلی عملکرد بسیار خوبی دارند؛ بنابراین اگر به دستی با شش یا هفت انگشت نگاه کنید، ممکن است بگویید: «اوه، این شبیه به یک انگشت است.» بهطور مشابه، در متنهای تولیدشده نیز ممکن است بگویید: «این شبیه به حرف H و آن شبیه به حرف P است»، اما در ساختاردهی این اجزا با هم، هنوز بسیار ضعیف عمل میکنند.
اگر از یک مولد تصویر هوش مصنوعی بخواهید که منویی برای یک رستوران ایرانی ایجاد کند، احتمالاً موارد معمولی مانند «قرمه» را خواهید دید، اما ممکن است با گزینههایی مانند «کِبات»، «فبنجان» و «فسبر» نیز روبهرو شوید. در این حالت، هوش مصنوعی با کنار هم قرار دادن توکنهایی که بهتنهایی معنی دارند، شروع به خلق کلمههایی میکند که وجود خارجی ندارند؛ یعنی دو توکن معنادار را تبدیل به یک ترکیب بیمعنی میکند.
به زبانی سادهتر، مدل زبانی بزرگ که دچار نوعی هذیانگویی شده است، غذاهای خیالی با نامهای بههمریخته ایجاد میکند.
چارهای که وضعیت مدلهای بزرگ زبانی را در مقابل توهم مصنوعی ایمن میکند، استفاده از استدلال در هنگام پیشبینی و تولید توکنهای بعدی است.
در همین زمینه، گوگل دیپمایند اخیراً از سیستمهای هوش مصنوعی استدلالگر جدیدی با نامهای AlphaProof و AlphaGeometry 2 رونمایی کرده است که بهطور ویژه برای استدلالهای هندسی طراحی شدهاند.
گوگل اعلام کرده که این دو سیستم توانستهاند چهار مسئله از مجموع شش مسئلهی المپیاد بینالمللی ریاضی را با موفقیت حل کنند. این عملکرد به قدری برجسته است که اگر این سیستمها در آن مسابقه شرکت میکردند، میتوانستند مدال نقره را کسب کنند.
گوگل تنها شرکتی نیست که به هوش مصنوعی با قابلیت استدلال فکر میکند. در حالی که تصاویر طنزآمیز دربارهی نحوهی نوشتن «Strawberry» در سراسر اینترنت منتشر میشود، شرکت OpenAI در حال کار روی پروژهی جدیدی با اسم رمز «توتفرنگی» (Strawberry) است. این پروژهی جدید قصد دارد در زمینهی استدلال حتی بهتر از پیش عمل کند.
توتفرنگی اسم رمز پروژهی جدید OpenAI است که میخواهد دقت ChatGPT را افزایش دهد
با کمبود دادههای آموزشی در اینترنت، رشد مدلهای زبانی بزرگ محدود میشود؛ اما به نظر میرسد که پروژهی توتفرنگی قادر است دادههای مصنوعی دقیقی تولید کند تا به بهبود مدلهای زبانی OpenAI کمک کند.
در قلب قابلیتهای پروژهی توتفرنگی، یک تکنیک به نام «خودآموز استدلالگر» (Self-Taught Reasoner) قرار دارد. این تکنیک شبیه به این است که به هوش مصنوعی یک آینه داده شود تا بتواند تمرینهای ذهنی خود را انجام دهد. این روش در حال هدایت هوش مصنوعی به سمتی است که از تشخیص سادهی الگوها فراتر برود و به حوزهی واقعی درک از روی حروف و حل مسائل پیچیدهتر وارد شود.
اما چگونه یک مدل هوش مصنوعی میتواند از ChatGPT-4 به چیزی اینچنین پیشرفته ارتقا یابد؟ پاسخ این سؤال را میتوان در پدیدهای به نام «گراکینگ» (Grokking) یافت که آلن اسمیتسون از دانشگاه دوبلین ایرلند، آن را چنین توضیح داده است:
اگر مدلی را با یک سری داده آموزش دهید تا به سطح مشخصی از عملکرد برسد و سپس به آموزش آن ادامه دهید، در نهایت ممکن است توانایی استنباط مدل بهطور ناگهانی بهبود یابد.
او این لحظه را با «یافتن مسیر» مقایسه میکند؛ لحظهای که مدل هوش مصنوعی ناگهان «درک» میکند، درست مانند فردی که در حال یادگیری ریاضیات است و پس از مدتی مطالعه، ناگهان همه چیز برایش روشن میشود.
اسمیتسون میگوید: «ناگهان توانایی مدلها در استنتاج، استدلال و پردازش منطقی بهطور چشمگیری افزایش مییابد، گویی یک جهش عظیم اتفاق افتاده؛ اما نمیدانیم چرا. نکتهی جالب این است که این بهبود از طریق صرف زمان بیشتر در حین آموزش مدل قابل دستیابی است. این پدیده هیچ ارتباطی با تنظیمات دقیق مدل یا مهندسی درخواستها ندارد، بلکه به ساختار مدل و تعداد سیکلهای آموزش ارتباط دارد.»
بهزودی نیاز به دادههای فراوان آموزشی برای افزایش دقت مدلهای زبانی بزرگ، برطرف خواهد شد
یکی از نتایج جالب پدیدهی «گراکینگ» این است که دیگر نیازی به مقدار زیادی دادهی آموزشی نیست. درحالی که قبلاً رقابت بر سر استفاده از دادههای آموزشی بیشتر و توسعهی مدلهای بزرگتر بود که نیاز به انرژی و هزینه هنگفتی برای پردازش داشتند، اکنون به نظر میرسد که مدلهای کوچکتر (مانند آنچه شرکت فرانسوی Mistral توسعه داده است) میتوانند با صرف زمان بیشتر برای آموزش، بهبود یابند.
بر اساس گزارشی از The Information، مدل حاصل از پروژهی توتفرنگی OpenAI نهتنها میتواند پازلهای کلمات را که نیاز به تفکر خلاقانه و تشخیص الگو دارند، حل کند؛ بلکه میتواند از چالشهایی نظیر حل معادلات ریاضی (که قبلاً با آنها مواجه نشده است) نیز سربلند عبور کند.
پروژهی توتفرنگی بیش از آنکه شامل ابزارهای جدید و پیشرفتهی تکنولوژی باشد، نمایانگر یک تغییر اساسی در انتظارات ما از هوش مصنوعی است. سازندگان مدلهای زبانی بزرگ میتوانند هوش مصنوعی را وارد دورانی کنند که از آن نهتنها بهعنوان ابزار، بلکه بهعنوان یک همکار توانمند که قادر به پاسخگویی به چالشهای پیچیده است، استفاده شود.
هوش مصنوعی وارد دورانی میشود که در آن در نقش یک همکار توانمند ظاهر میشود
در حالی که شرکت OpenAI هنوز بهطور رسمی تاریخ انتشار نسخهی توتفرنگی یا ادغام آن با ChatGPT را اعلام نکرده است، ناظران صنعت بهدقت تحرکات این شرکت را دنبال میکنند. پست ماه گذشتهی سم آلتمن در پلتفرم ایکس، که حاوی اشارات مبهمی بود، تنها به گمانهزنیها درخصوص رونمایی در آیندهی نزدیک دامن زده است.
آلتمن در این توییت، با انتشار تصویری از گلدانی حاوی توتفرنگی، اظهارات دوپهلو و مرموزی دربارهی پروژهی مخفی شرکتش بیان کرد. به نظر میرسد آیندهی هوش مصنوعی بهطرز محسوسی رنگ و بوی میوهها را به خود گرفته است.
اکنون باید دید آیا این تحول جدید میتواند هوش مصنوعی را یک پله به هوش انسانگونه نزدیک کند یا خیر.