سیستمی برای ارزیابی و رتبهبندی مدلهای زبانی (LLM) فارسی راهاندازی شد
آزمایشگاه پردازش زبان طبیعی دانشگاه صنعتی امیرکبیر و مرکز تحقیقات هوش مصنوعی پارت، برای ارزیابی مدلهای زبانی (LLM) فارسی، سیستم جدیدی رونمایی کردند. این سیستم شامل جدول رتبهبندی و ابزارهای ارزیابی پیشرفتهای است که عملکرد مدلهای مختلف در حوزههایی مانند درک متن و پاسخدهی را مقایسه میکند.
توسعهدهندگان Open Persian LLM Leaderboard با اشاره به اینکه سیستمهای ارزیابی پیشین، مدلهای زبانی فارسی را صرفا با سطح دانش دبیرستان محک میزدند، ادعا میکنند که سیستم جدید قابلیت ارزیابی مدلها در سطح کارشناسی ارشد و عرصههای گوناگون از جمله پزشکی، اقتصاد، صنعت، منطق و مهندسی را ارائه میدهد. بهگفتهی توسعهدهندگان، این چهارچوب ارزیابی با بیشاز ۴۰هزار نمونه توسعه داده شده و تعداد نمونهها بهطور مستمر در حال افزایش است.
قرار است سیستم جامع ارزیابی مدلهای زبانی فارسی به توسعهدهندگان کمک کند تا مدلهای خود را براساس معیارهای استاندارد ارزیابی کنند و کیفیت آنها را بهبود دهند. ظاهرا بخشی از قابلیتهای سیستم ارزیابی جدید بهصورت متنباز در وبسایت HuggingFace هم قرار گرفته است تا دسترسی پژوهشگران و توسعهدهندگان به این سیستم سادهتر باشد.