آیا ایلان ماسک در مورد توانایی‌های هوش مصنوعی گراک ۳ دروغ گفته است؟

یک‌شنبه 5 اسفند 1403 - 10:51

مطالعه 2 دقیقه

به‌ادعای یکی از کارمندان OpenAI، استارتاپ هوش مصنوعی ایلان ماسک در مورد عملکرد مدل Grok 3 دروغ گفته است.

تبلیغات

یکی از کارکنان OpenAI، شرکت xAI متعلق‌ به ایلان ماسک را به انتشار نتایج گمراه‌کننده درباره‌ی هوش مصنوعی Grok 3، متهم کرد؛ اما ایگور بابوشکین، یکی از بنیان‌گذاران xAI، تأکید دارد که این شرکت درست عمل کرده است.

xAI در وبلاگ خود نموداری منتشر کرد که عملکرد گراک ۳ را در آزمون AIME 2025 نشان می‌دهد؛ مجموعه‌ای از پرسش‌های ریاضی دشوار که از یک مسابقه‌ی ریاضی گردآوری شده‌اند. برخی کارشناسان درباره‌ی اعتبار AIME به‌عنوان معیاری برای سنجش هوش مصنوعی تردید دارند. بااین‌حال، AIME 2025 و نسخه‌های پیشین این آزمون معمولاً برای ارزیابی توانایی مدل‌ها در حل مسائل ریاضی استفاده می‌شوند.

در نمودار xAI، دو نسخه از گراک ۳، یعنی Grok 3 Reasoning Beta و Grok 3 mini Reasoning، عملکرد بهتری نسبت‌ به بهترین مدل فعلی OpenAI با نام o3-mini-high در آزمون AIME 2025 داشتند. بااین‌حال، کارکنان OpenAI در شبکه‌ی اجتماعی X اشاره کردند که نمودار xAI امتیاز مدل o3-mini-high را در حالت cons@64 برای آزمون AIME 2025 درج نکرده است.

cons@64 مخفف عبارت consensus@64 است که به مدل اجازه می‌دهد هر مسئله در آزمون را ۶۴ بار حل کند و پاسخی را که بیشترین تکرار را داشته باشد، به‌عنوان پاسخ نهایی انتخاب می‌کند. cons@64 معمولاً امتیاز مدل‌ها را در آزمون‌ها به میزان قابل‌ توجهی افزایش می‌دهد و حذف آن از نمودار می‌تواند باعث شود عملکرد یک مدل بهتر از دیگری به نظر برسد، درحالی‌که در واقعیت چنین نیست.

امتیازهای Grok 3 Reasoning Beta و Grok 3 mini Reasoning در آزمون AIME 2025 با معیار 1@ (اولین پاسخی که مدل‌ها ارائه داده‌اند) پایین‌تر از امتیاز مدل o3-mini-high است.

همچنین، Grok 3 Reasoning Beta با اختلافی جزئی پشت سر مدل o1 شرکت OpenAI قرار می‌گیرد که در حالت پردازشی medium تنظیم شده است. xAI همچنان Grok 3 را به‌عنوان «باهوش‌ترین هوش مصنوعی جهان» معرفی می‌کند.

مقاله‌های مرتبط

بابوشکین استدلال می‌کند که OpenAI نیز پیش‌تر نمودارهایی با نتایج گمراه‌کننده منتشر کرده بود؛ البته آن نمودارها صرفاً عملکرد مدل‌های خود اوپن‌ای‌آی را مقایسه می‌کردند.

مقاله رو دوست داشتی؟

نظرت چیه؟

امیر عبدالملکی

تبلیغات

نظرات