نخستین مدل هوش مصنوعی باز متا با قابلیت پردازش متن و تصویر معرفی شد
متا از مدل هوش مصنوعی لاما ۳٫۲ (Llama 3.2) رونمایی کرد؛ این مدل متنباز اولین مدل متا است که میتواند هم تصاویر و هم متون را پردازش کند. عرضهی این نسخه گامی مهم در پیشرفت تواناییهای هوش مصنوعی متا بهشمار میرود و میتواند به توسعهدهندگان کمک کند تا برنامههای پیشرفتهتری در زمینهی واقعیت افزوده، جستجوی بصری و تحلیل اسناد ایجاد کنند.
طبق بیانیهی متا، لاما ۳٫۲ شامل دو مدل بینایی (با ۱۱ میلیارد و ۹۰ میلیارد پارامتر) و همچنین دو مدل سبکتر مخصوص متن (با ۱ میلیارد و ۳ میلیارد پارامتر) است. مدلهای کوچکتر برای کار روی دستگاههای موبایل و سختافزارهای شرکتهایی چون Qualcomm و MediaTek طراحی شدهاند. بهطور خاص، این مدلهای سبک از طول زمینه (Context) ۱۲۸ هزار توکن پشتیبانی میکنند.
ارزیابیهای داخلی متا نشان میدهند که مدلهای بینایی لاما ۳٫۲ توانایی رقابت با مدلهای شناختهشدهای مانند Claude 3 Haiku و GPT4o-mini در وظایف تشخیص تصویر و درک بصری را دارند. گفته میشود که مدل ۳ میلیارد پارامتری متا از مدل Gemma 2 2.6B و Phi 3.5-mini در وظایفی مانند پیروی از دستورات، خلاصهسازی و استفاده از ابزارها بهتر عمل میکند، درحالیکه مدل یک میلیارد پارامتری عملکردی شبیه به مدل Gemma دارد.
قابلیتهای چندحالتهی جدید به لاما ۳٫۲ این امکان را میدهد که وظایفی مانند درک اسناد در سطح نمودارها و جداول، نوشتن توضیحات تصاویر و تطبیق بصری (Visual Grounding) را انجام دهد. به عنوان مثال، این مدل میتواند با تحلیل یک نمودار تجاری، به سوالاتی در مورد عملکرد فروش پاسخ یا پس از تفسیر نقشهها، اطلاعاتی دربارهی مسیرهای پیادهروی ارائه دهد.
متا بر سادگی پیادهسازی مدلهای جدید خود برای توسعهدهندگان تأکید دارد. بهگفتهی احمد الدحله، قائم مقام کسبوکار هوش مصنوعی و یادگیری ماشین متا، توسعهدهندگان برای فعال کردن قابلیت پردازش تصویر، تنها باید ویژگی چندحالتهی جدید را اضافه کنند.
متا با معرفی مدلهای جدید خود به دور رقابت با OpenAI و گوگل که سال گذشته مدلهای چندحالتهی خود را معرفی کرده بودند باز میگردد؛ افزونبراین، مدلهای جدید نقش مهمی در استراتژی کلی هوش مصنوعی متا ایفا میکنند. اضافه شدن قابلیتهای بصری برای پروژههای سختافزاری متا، از جمله عینکهای Ray-Ban Meta، نیز اهمیت ویژهای دارد.
متا با هدف سادهکردن پیادهسازی مدلهای لاما در سناریوهای مختلفی چون زیرساخت سنتی (On Premise)، کلود و آندیوایس (On Device)، توزیعهای Llama Stack را منتشر میکند. این توزیعها شامل یک رابط خط فرمان، کدهای کلاینت در زبانهای برنامهنویسی مختلف و کانتینرهای Docker برای پیادهسازی سرورها و ایجنتها هستند.
افزونبرعرضهی مدلهای جدید، متا تدابیر ایمنی جدیدی برای مدلهای هوش مصنوعی خود معرفی کرده است. از جملهی این تدابیر میتوان به Llama Guard 3 11B Vision برای فیلتر کردن ورودیها و خروجیهای متنی و تصویری و نسخهی بهینهتری از Llama Guard برای استفادهی آن دیوایس اشاره کرد.
متا همچنان به حمایت از توسعهی هوش مصنوعی متنباز ادامه میدهد و بر این باور است که این رویکرد باعث نوآوری و دموکراتیزه شدن دسترسی به فناوری هوش مصنوعی میشود. مدلهای لاما ۳٫۲ برای دانلود در وبسایت llama.com و Hugging Face و همچنین از طریق پلتفرمهای مختلف دردسترس هستند.
لازمبهذکر است که نسخهی قبلی لاما ۳٫۱ که شامل نسخهای با ۴۰۵ میلیارد پارامتر است، همچنان برای وظایف پیشرفتهتر تولید متن کاربرد دارد.