آیا ایلان ماسک در مورد تواناییهای هوش مصنوعی گراک ۳ دروغ گفته است؟
یکی از کارکنان OpenAI، شرکت xAI متعلق به ایلان ماسک را به انتشار نتایج گمراهکننده دربارهی هوش مصنوعی Grok 3، متهم کرد؛ اما ایگور بابوشکین، یکی از بنیانگذاران xAI، تأکید دارد که این شرکت درست عمل کرده است.
xAI در وبلاگ خود نموداری منتشر کرد که عملکرد گراک ۳ را در آزمون AIME 2025 نشان میدهد؛ مجموعهای از پرسشهای ریاضی دشوار که از یک مسابقهی ریاضی گردآوری شدهاند. برخی کارشناسان دربارهی اعتبار AIME بهعنوان معیاری برای سنجش هوش مصنوعی تردید دارند. بااینحال، AIME 2025 و نسخههای پیشین این آزمون معمولاً برای ارزیابی توانایی مدلها در حل مسائل ریاضی استفاده میشوند.
در نمودار xAI، دو نسخه از گراک ۳، یعنی Grok 3 Reasoning Beta و Grok 3 mini Reasoning، عملکرد بهتری نسبت به بهترین مدل فعلی OpenAI با نام o3-mini-high در آزمون AIME 2025 داشتند. بااینحال، کارکنان OpenAI در شبکهی اجتماعی X اشاره کردند که نمودار xAI امتیاز مدل o3-mini-high را در حالت cons@64 برای آزمون AIME 2025 درج نکرده است.
cons@64 مخفف عبارت consensus@64 است که به مدل اجازه میدهد هر مسئله در آزمون را ۶۴ بار حل کند و پاسخی را که بیشترین تکرار را داشته باشد، بهعنوان پاسخ نهایی انتخاب میکند. cons@64 معمولاً امتیاز مدلها را در آزمونها به میزان قابل توجهی افزایش میدهد و حذف آن از نمودار میتواند باعث شود عملکرد یک مدل بهتر از دیگری به نظر برسد، درحالیکه در واقعیت چنین نیست.
امتیازهای Grok 3 Reasoning Beta و Grok 3 mini Reasoning در آزمون AIME 2025 با معیار 1@ (اولین پاسخی که مدلها ارائه دادهاند) پایینتر از امتیاز مدل o3-mini-high است.
همچنین، Grok 3 Reasoning Beta با اختلافی جزئی پشت سر مدل o1 شرکت OpenAI قرار میگیرد که در حالت پردازشی medium تنظیم شده است. xAI همچنان Grok 3 را بهعنوان «باهوشترین هوش مصنوعی جهان» معرفی میکند.
بابوشکین استدلال میکند که OpenAI نیز پیشتر نمودارهایی با نتایج گمراهکننده منتشر کرده بود؛ البته آن نمودارها صرفاً عملکرد مدلهای خود اوپنایآی را مقایسه میکردند.
ظاهراً فروش نهچندان مناسب شاسیبلند بیامو XM باعث شده است خودروساز معروف برای فروش این خودرو، تخفیفهای سنگینی لحاظ کند.
ویوالدی با همکاری جدید، ابزار فیلترشکن را بهطور مستقیم در مرورگر خود ادغام کرده است.
هر گوشه از اینترنت را که نگاه کنید تصاویر انیمهای به سبک استودیو جیبلی خواهید دید. ابزار تولید تصویر ChatGPT اینگونه خود را بر سر زبانها انداخت.
برند تولید پوشاک جینوست، تمام فروشگاههای فیزیکیاش را تعطیل و ۶۰۰ کارمند را اخراج میکند.
به باور مدیرعامل سابق مایکروسافت، هوش مصنوعی تا ۱۰ سال دیگر در حوزههای کلیدی جای انسانها را میگیرد.
شاسیبلند حاصل همکاری پژو سیتروئن و دانگفنگ قصد دارد وارد بازار داغ خودروهای برقی چین شود.
روابط عمومی بانک سپه ادعای هک شدن دادههای این بانک را تکذیب کرد؛ با این حال گروه هکری گفته است قصد دارد دادههای ۲۰ هزار مشتری را بهزودی منتشر کند.