D1-kifpool

آیا ایلان ماسک در مورد توانایی‌های هوش مصنوعی گراک ۳ دروغ گفته است؟

یک‌شنبه ۵ اسفند ۱۴۰۳ - ۰۷:۲۱
مطالعه 2 دقیقه
لوگو گراک / Grok / گروک هوش مصنوعی روی موبایل
به‌ادعای یکی از کارمندان OpenAI، استارتاپ هوش مصنوعی ایلان ماسک در مورد عملکرد مدل Grok 3 دروغ گفته است.
تبلیغات
D4-mci

یکی از کارکنان OpenAI، شرکت xAI متعلق‌ به ایلان ماسک را به انتشار نتایج گمراه‌کننده درباره‌ی هوش مصنوعی Grok 3، متهم کرد؛ اما ایگور بابوشکین، یکی از بنیان‌گذاران xAI، تأکید دارد که این شرکت درست عمل کرده است.

xAI در وبلاگ خود نموداری منتشر کرد که عملکرد گراک ۳ را در آزمون AIME 2025 نشان می‌دهد؛ مجموعه‌ای از پرسش‌های ریاضی دشوار که از یک مسابقه‌ی ریاضی گردآوری شده‌اند. برخی کارشناسان درباره‌ی اعتبار AIME به‌عنوان معیاری برای سنجش هوش مصنوعی تردید دارند. بااین‌حال، AIME 2025 و نسخه‌های پیشین این آزمون معمولاً برای ارزیابی توانایی مدل‌ها در حل مسائل ریاضی استفاده می‌شوند.

در نمودار xAI، دو نسخه از گراک ۳، یعنی Grok 3 Reasoning Beta و Grok 3 mini Reasoning، عملکرد بهتری نسبت‌ به بهترین مدل فعلی OpenAI با نام o3-mini-high در آزمون AIME 2025 داشتند. بااین‌حال، کارکنان OpenAI در شبکه‌ی اجتماعی X اشاره کردند که نمودار xAI امتیاز مدل o3-mini-high را در حالت cons@64 برای آزمون AIME 2025 درج نکرده است.

cons@64 مخفف عبارت consensus@64 است که به مدل اجازه می‌دهد هر مسئله در آزمون را ۶۴ بار حل کند و پاسخی را که بیشترین تکرار را داشته باشد، به‌عنوان پاسخ نهایی انتخاب می‌کند. cons@64 معمولاً امتیاز مدل‌ها را در آزمون‌ها به میزان قابل‌ توجهی افزایش می‌دهد و حذف آن از نمودار می‌تواند باعث شود عملکرد یک مدل بهتر از دیگری به نظر برسد، درحالی‌که در واقعیت چنین نیست.

امتیازهای Grok 3 Reasoning Beta و Grok 3 mini Reasoning در آزمون AIME 2025 با معیار 1@ (اولین پاسخی که مدل‌ها ارائه داده‌اند) پایین‌تر از امتیاز مدل o3-mini-high است.

همچنین، Grok 3 Reasoning Beta با اختلافی جزئی پشت سر مدل o1 شرکت OpenAI قرار می‌گیرد که در حالت پردازشی medium تنظیم شده است. xAI همچنان Grok 3 را به‌عنوان «باهوش‌ترین هوش مصنوعی جهان» معرفی می‌کند.

بابوشکین استدلال می‌کند که OpenAI نیز پیش‌تر نمودارهایی با نتایج گمراه‌کننده منتشر کرده بود؛ البته آن نمودارها صرفاً عملکرد مدل‌های خود اوپن‌ای‌آی را مقایسه می‌کردند.

مقاله رو دوست داشتی؟
نظرت چیه؟
داغ‌ترین مطالب روز
بی ام و XM 2023
شاسی‌بلند XM خریدار ندارد؛ تلاش بی‌ام‌و برای جذب مشتری با تخفیف‌های چشمگیر

ظاهراً فروش نه‌چندان مناسب شاسی‌بلند بی‌ام‌و XM باعث شده است خودروساز معروف برای فروش‌ این خودرو، تخفیف‌های سنگینی لحاظ کند.

59
21 ساعت پیش
ابزار فیلترشکن داخلی مرورگر ویوالدی
مرورگر ویوالدی حالا فیلترشکن داخلی دارد

ویوالدی با همکاری جدید، ابزار فیلترشکن را به‌طور مستقیم در مرورگر خود ادغام کرده است.

16
2 روز پیش
تولید تصویر ChatGPT به سبک استودیو جیبلی
همه چیز به سبک استودیو جیبلی؛ این تصاویر با ابزار جدید ChatGPT ساخته شده‌اند

هر گوشه از اینترنت را که نگاه کنید تصاویر انیمه‌ای به سبک استودیو جیبلی خواهید دید. ابزار تولید تصویر ChatGPT اینگونه خود را بر سر زبان‌ها انداخت.

45
یک روز پیش
نمایی از ورودی فروشگاه جین‌وست
برند تولید لباس جین‌وست تمامی ۹۰ فروشگاه فیزیکی‌اش را در استرالیا تعطیل کرد

برند تولید پوشاک جین‌وست، تمام فروشگاه‌های فیزیکی‌اش را تعطیل و ۶۰۰ کارمند را اخراج می‌کند.

29
یک روز پیش
بیل گیتس سال ۲۰۲۴ در مجمع جهانی اقتصاد
بیل گیتس: هوش مصنوعی ۱۰ سال دیگر جایگزین پزشکان و معلمان می‌شود

به باور مدیرعامل سابق مایکروسافت، هوش مصنوعی تا ۱۰ سال دیگر در حوزه‌های کلیدی جای انسان‌ها را می‌گیرد.

88
2 روز پیش
نمای سه چهارم جلو هدموس ۰۶
شاسی‌بلند جدید پژو با طراحی جذاب معرفی شد

شاسی‌بلند حاصل همکاری پژو سیتروئن و دانگ‌فنگ قصد دارد وارد بازار داغ خودروهای برقی چین شود.

33
2 روز پیش
یک هکر با هودی مشکی در حال هک کردن
بانک سپه ادعای هک شدن را تکذیب کرد [به‌روزرسانی: هکرها اطلاعات حساب شخصی مدیر روابط‌ عمومی بانک را منتشر کردند]

روابط عمومی بانک سپه ادعای هک شدن داده‌های این بانک را تکذیب کرد؛ با این حال گروه هکری گفته است قصد دارد داده‌های ۲۰ هزار مشتری را به‌زودی منتشر کند.

103
7 ساعت پیش
تبلیغات
DN-DNShatel

نظرات

تبلیغات
D7-zoomitproduct
D7-B6Snappshop
پخش از رسانه
coming soon...

با چشم باز خرید کنید
زومیت شما را برای انتخاب بهتر و خرید ارزان‌تر راهنمایی می‌کند
ورود به بخش محصولات