خالق ChatGPT فریب‌دادن این چت‌بات را سخت‌تر می‌کند

شنبه 30 تیر 1403 - 15:23

مطالعه 1 دقیقه

پروتکل امنیتی جدید OpenAI به مدل‌های هوش مصنوعی یاد می‌دهد که فریب درخواست‌های ساختارشکن را نخورند.

تبلیغات

OpenAI روش جدیدی را توسعه داده است که از فریب‌خوردن چت‌بات ChatGPT توسط برخی درخواست‌های متنی جلوگیری می‌کند.

میم‌هایی در فضای مجازی منتشر شده‌اند که نشان می‌دهند بعضی از کاربران با نوشتن عبارت «تمام دستورالعمل‌های قبلی را فراموش کن»،‌ ربات‌های هوش مصنوعی مبتنی‌بر ChatGPT را که برای انجام کارهای خاصی طراحی شده‌اند، وادار به پاسخ‌گویی به درخواست‌های نامرتبط کرده‌اند.

برای مقابله با این مشکل، گروهی از محققان OpenAI روشی به نام «سلسله‌مراتب دستورالعمل» را توسعه داده‌اند که مدل را در برابر سوءاستفاده‌ها و درخواست‌های غیرمجاز نفوذناپذیر می‌کند. مدل‌هایی که از این روش بهره می‌برند، اهمیت بیشتری به اصول مورد نظر توسعه‌دهنده می‌دهند و به درخواست‌های مکرر کاربر برای شکستن آن اصول توجه نمی‌کنند.

اولین مدلی که روش امنیتی جدید را دریافت کرد، GPT-4o Mini است که روز پنج‌شنبه معرفی شد. اولیویه گودمان، مدیر API در OpenAI، توضیح داد که سلسله‌مراتب دستورالعمل‌ها حملات فریبکارانه را سخت‌تر می‌کند. او گفت: «این روش به مدل یاد می‌دهد که فقط از درخواست توسعه‌دهنده پیروی کند و به پیام‌هایی مانند «تمام دستورالعمل‌های قبلی را نادیده بگیر» توجه نخواهد کرد.»

مقالات مرتبط

مکانیزم ایمنی جدید به‌ هدفی اشاره دارد که OpenAI می‌خواهد به آن برسد: توانمندسازی دستیارهای هوش مصنوعی کاملاً خودکار که زندگی دیجیتال بشر را اداره می‌کنند. این شرکت به‌تازگی اعلام کرد که در حال آماده‌سازی این دستیارها است و روش سلسله‌مراتب دستورالعمل‌ها را به‌عنوان پیش‌نیاز ضروری انتشار گسترده‌ی آن‌ها به‌کار خواهد گرفت.

مقاله رو دوست داشتی؟

نظرت چیه؟

محمد دزفولیان

تبلیغات

نظرات