مدل زبان جدید و کوچک مایکروسافت با تعداد پارامتر بسیار کمتر، عملکرد بهتری از ChatGPT دارد
جدیدترین مدل زبان مایکروسافت موسومبه Phi-1 با ۱٫۳ میلیارد پارامتر و پیشرفت شگفتانگیز در عملکرد، معرفی شد. تصویر عموم این است که مدلهای بزرگتر عملکرد بهتری دارند، اما رویکرد غول فناوری ردموندی بر کیفیت دادههای آموزشی تمرکز دارد. Phi-1 که براساس مجموعه دادههایی در سطح کتابهای درسی و با دقت بالا، آموزش دیده است، نسبتبه مدل GTP-3.5 که ۱۰۰ میلیارد پارامتر دارد، بهتر عمل میکند.
مدل زبان Phi-1 مایکروسافت که براساس معماری ترانسفورمر ساخته شده، بهدلیل عملکرد چشمگیر، توجهات زیادی به خود جلب کرد است. تیم سازندهی این مدل بر کیفیت دادههای آموزشی تأکید دارند. فرآیند آموزش این مدل با کمک ۸ پردازندهی گرافیکی انویدیا A100 و فقط در چهار روز کامل شد.
بهنوشتهی گیزموچاینا، مایکروسافت با تمرکز بر افزایش کیفیت دادههای آموزشی بهجای افزایش تعداد پارامترها، نتایج امیدوارکنندهای بههمراه داشته است. دقت Phi-1 در آزمایشهای مقایسهای به امتیاز ۵۰٫۶ درصد رسید که از عملکرد ۴۷ درصدی GPT-3.5 با ۱۷۵ میلیارد پارامتر، بهتر است.
مایکروسافت تصمیم دارد برای بهبود قابلیت دسترسی و مشارکت افراد در توسعهی Phi-1، این مدل زبانی را بهطور منبعباز منتشر کند. این اولینبار نیست که شرکت اهل ردموند، مدل زبان کوچکی توسعه داده زیرا قبلاً شاهد رونمایی از مدل Orca نیز بودهایم؛ مدلی با ۱۳ میلیارد پارامتر که با استفاده از GPT-4 روی دادههای مصنوعی آموزش داده شده بود. حتی Orca نیز ثابت کرد از ChatGPT بهتر عمل میکند. مقالهی تحقیقاتی Phi-1 در arXiv منتشر شده که بینش دقیقی درمورد معماری و روش آموزش این مدل هوش مصنوعی ارائه میدهد.
مدل زبان Phi-1 مایکروسافت این ایده را به چالش میکشد که افزایش ابعاد پشته برای بهبود عملکرد ضروری است. این مدل با تمرکز روی دادههای آموزشی باکیفیت، دقت قابلتوجهی را بهنمایش گذاشته و حتی از مدلهای بزرگتر نیز پیشی گرفته است. منبعباز بودن مدل زبان جدید مایکروسافت، تعهد این شرکت در پیشرفت پردازش زبان طبیعی را بهتر نشان میدهد.
نظرات