نخستین مدل هوش مصنوعی باز متا با قابلیت پردازش متن و تصویر معرفی شد

پنج‌شنبه ۵ مهر ۱۴۰۳ - ۱۱:۳۸
مطالعه 4 دقیقه
لوگو Meta AI روی نمایشگر گوشی قرار گرفته روی کیبورد لپ‌تاپ از نمای نزدیک
متا از مدل هوش مصنوعی لاما ۳٫۲ که علاوه‌بر قابلیت پردازش متن، توانایی پردازش تصاویر را نیز دارد رونمایی کرد.
تبلیغات

متا از مدل هوش مصنوعی لاما ۳٫۲ (Llama 3.2) رونمایی کرد؛ این مدل متن‌باز اولین مدل متا است که می‌تواند هم تصاویر و هم متون را پردازش کند. عرضه‌ی این نسخه گامی مهم در پیشرفت توانایی‌های هوش مصنوعی متا به‌شمار می‌رود و می‌تواند به توسعه‌دهندگان کمک کند تا برنامه‌های پیشرفته‌تری در زمینه‌ی واقعیت افزوده، جستجوی بصری و تحلیل اسناد ایجاد کنند.

پوستر معرفی مدل‌های لاما ۳٫۲
Meta

طبق بیانیه‌ی متا، لاما ۳٫۲ شامل دو مدل بینایی (با ۱۱ میلیارد و ۹۰ میلیارد پارامتر) و همچنین دو مدل سبک‌تر مخصوص متن (با ۱ میلیارد و ۳ میلیارد پارامتر) است. مدل‌های کوچک‌تر برای کار روی دستگاه‌های موبایل و سخت‌افزارهای شرکت‌هایی چون Qualcomm و MediaTek طراحی شده‌اند. به‌طور خاص، این مدل‌های سبک از طول زمینه (Context) ۱۲۸ هزار توکن پشتیبانی می‌کنند.

ارزیابی‌های داخلی متا نشان می‌دهند که مدل‌های بینایی لاما ۳٫۲ توانایی رقابت با مدل‌های شناخته‌شده‌ای مانند Claude 3 Haiku و GPT4o-mini در وظایف تشخیص تصویر و درک بصری را دارند. گفته می‌شود که مدل ۳ میلیارد پارامتری متا از مدل Gemma 2 2.6B و Phi 3.5-mini در وظایفی مانند پیروی از دستورات، خلاصه‌سازی و استفاده از ابزارها بهتر عمل می‌کند، درحالی‌که مدل یک میلیارد پارامتری عملکردی شبیه به مدل Gemma دارد.

مقایسه بنچمارک‌ بصری مدل‌های هوش مصنوعی مختلف
مقایسه‌ی بنچمارک‌ بصری و متنی مدل لاما ۳٫۲ با دیگر مدل‌ها
Meta
مقایسه بنچمارک‌ دستورات سبک مدل‌های هوش مصنوعی مختلف
مقایسه‌ی بنچمارک‌های سبک پیروی از دستورات مدل لاما ۳٫۲ با دیگر مدل‌ها
Meta

قابلیت‌های چندحالته‌ی جدید به لاما ۳٫۲ این امکان را می‌دهد که وظایفی مانند درک اسناد در سطح نمودارها و جداول، نوشتن توضیحات تصاویر و تطبیق بصری (Visual Grounding) را انجام دهد. به عنوان مثال، این مدل می‌تواند با تحلیل یک نمودار تجاری، به سوالاتی در مورد عملکرد فروش پاسخ یا پس از تفسیر نقشه‌ها، اطلاعاتی درباره‌ی مسیرهای پیاده‌روی ارائه دهد.

متا بر سادگی پیاده‌سازی مدل‌های جدید خود برای توسعه‌دهندگان تأکید دارد. به‌گفته‌ی احمد الدحله، قائم مقام کسب‌و‌کار هوش مصنوعی و یادگیری ماشین متا، توسعه‌دهندگان برای فعال کردن قابلیت پردازش تصویر، تنها باید ویژگی چندحالته‌ی جدید را اضافه کنند.

متا با معرفی مدل‌های جدید خود به دور رقابت با OpenAI و گوگل که سال گذشته مدل‌های چندحالته‌ی خود را معرفی کرده بودند باز می‌گردد؛ افزون‌بر‌این، مدل‌های جدید نقش مهمی در استراتژی کلی هوش مصنوعی متا ایفا می‌کنند. اضافه شدن قابلیت‌های بصری برای پروژه‌های سخت‌افزاری متا، از جمله عینک‌های Ray-Ban Meta، نیز اهمیت ویژه‌ای دارد.

متا با هدف ساده‌‌کردن پیاده‌سازی مدل‌های لاما در سناریو‌های مختلفی چون زیرساخت سنتی (On Premise)، کلود و آن‌دیوایس (On Device)، توزیع‌های Llama Stack را منتشر می‌کند. این توزیع‌ها شامل یک رابط خط فرمان، کدهای کلاینت در زبان‌های برنامه‌نویسی مختلف و کانتینرهای Docker برای پیاده‌سازی سرورها و ایجنت‌ها هستند.

نمودار توزیع‌های لاما استک
توزیع‌های لاما استک
Meta

افزون‌برعرضه‌ی مدل‌های جدید، متا تدابیر ایمنی جدیدی برای مدل‌های هوش مصنوعی خود معرفی کرده است. از جمله‌ی این تدابیر می‌توان به Llama Guard 3 11B Vision برای فیلتر کردن ورودی‌ها و خروجی‌های متنی و تصویری و نسخه‌ی بهینه‌تری از Llama Guard برای استفاده‌ی آن‌ دیوایس اشاره کرد.

متا همچنان به حمایت از توسعه‌ی هوش مصنوعی متن‌باز ادامه می‌دهد و بر این باور است که این رویکرد باعث نوآوری و دموکراتیزه شدن دسترسی به فناوری هوش مصنوعی می‌شود. مدل‌های لاما ۳٫۲ برای دانلود در وب‌سایت llama.com و Hugging Face و همچنین از طریق پلتفرم‌های مختلف دردسترس هستند.

لازم‌به‌ذکر است که نسخه‌ی قبلی لاما ۳٫۱ که شامل نسخه‌ای با ۴۰۵ میلیارد پارامتر است، همچنان برای وظایف پیشرفته‌تر تولید متن کاربرد دارد.

مقاله رو دوست داشتی؟
نظرت چیه؟
داغ‌ترین مطالب روز
تبلیغات

نظرات