مدل زبانی «کوچک» جدید مایکروسافت، تصاویر را درک میکند
مایکروسافت در کنفرانس بیلد ۲۰۲۴ نسخهی جدیدی از مدل زبانی کوچک خود به نام Phi-3-vision را معرفی کرد که میتواند تصاویر را بررسی کند و به شما بگوید چه چیزهایی در آنها وجود دارد.
Phi-3-vision مدل زبانی چندحالته است. این یعنی میتواند هم متن و هم تصاویر را درک کند. مایکروسافت میگوید Phi-3-vision که درحالحاضر بهصورت آزمایشی دردسترس است، مدلی با ۴٫۲ میلیارد پارامتر محسوب میشود و میتواند استدلال بصری در هنگام مطرحکردن سؤال دربارهی نمودارها یا تصاویر را انجام دهد.
Phi-3-vision بهمراتب کوچکتر از سایر مدلهای هوش مصنوعی متمرکز بر تصویر مانند DALL-E یا Stable Diffusion است. برخلاف آن مدلها، Phi-3-vision تصویر تولید نمیکند؛ اما میتواند آنچه در تصویر وجود دارد، بفهمد و آن را برای کاربر تجزیهوتحلیل کند.
با افزایش تقاضا برای استفاده از خدمات هوش مصنوعی مقرونبهصرفهتر، توسعهدهندگان مدلهای هوش مصنوعی کوچک و سبک مانند Phi-3 را ارائه میدهند. مدلهای کوچک میتوانند برای اجرای قابلیتهای هوش مصنوعی روی دستگاههایی مانند گوشی و لپتاپ بدون نیاز به اشغال فضای رم، استفاده شوند.
نظرات