دانشمندان چتباتهای هوش مصنوعی را به جان یکدیگر انداختند
محققان دانشگاه فناوری نانیانگ (NTU) در سنگاپور روشی را برای «جیلبریککردن» چتباتهای معروف هوش مصنوعی مانند گوگل بارد و ChatGPT و کوپایلت ایجاد کردهاند. جیلبریکشدن به این چتباتها اجازه میدهد تا فارغ از محدودیتهای اخلاقی اعمالشدهی سازندگان، به پرسشهای مخرب پاسخ دهند.
بهسرپرستی پروفسور لیو یانگ، دو تن از دانشجویان دکتری NTU روشی دومرحلهای به نام Masterkey برای مهندسی معکوس و دورزدن سیستمهای دفاعی چتباتها ابداع کردند.
ابتدا مهاجم مکانیزمهای دفاعی چتبات هدف را مهندسی معکوس میکند. سپس، یک مدل زبانی بزرگ (LLM) دیگر را با دادههای بهدستآمده آموزش میدهد تا از هر ضعفی در چتبات رقیب سوءاستفاده و بایپسهایی را برای آن ایجاد کند. درنهایت، Masterkey ایجاد میشود که میتواند سیستمهای حفاظتی چتبات را حتی پس از اعمال وصلههای امنیتی بهدست توسعهدهندگان دور بزند.
بهگفتهی پروفسور یانگ، توانایی چتبات برای یادگیری و سازگاری مداوم، آن را به بردار حمله علیه رقبا و خودش تبدیل میکند. بهدلیل همین تواناییها، حتی هوش مصنوعیای که برای جلوگیری از ایجاد محتوای خشونتآمیز و مضر بهواسطهی پادمانها و فهرستی از کلمات کلیدی ممنوعه محدود شده است، نیز میتوان با استفاده از هوش مصنوعی آموزشدیدهی دیگر دور زد.
بهگزارش NTU، تنها کاری که چتبات حملهکننده باید انجام دهد، خودداری از بهکاربردن کلمات کلیدی فهرست سیاه چتبات هدف یا دورزدن آنها است. پس از این کار، چتبات شکستخوردهی هدف را میتوان برای ایجاد محتوای خشونتآمیز، غیراخلاقی یا مجرمانه بهکار گرفت.
پیشازاین هم کاربران بارها با استفاده از دستورهای مختلف توانسته بودند تا اندازههای مختلفی چتباتهای یادشده را به ایجاد محتوای مغایر اصول تعیین شده مجبور کنند؛ اما روش Masterkey محققان NTU درمقایسهبا دستورهای معمولی، تا سه برابر مؤثرتر است. بهعلاوه، این روش جدید میتواند به گونهای تکامل پیدا کند که هرگونه اصلاح امنیتی سازندگان را بیاثر کند.
محققان دو روش نمونه را که برای وادارکردن چتباتها به آغاز حمله فاش کردند. روش اول شامل بردن چتبات درون شخصیتی بود که برای دورزدن کلمات ممنوعه، هنگام نوشتن دستورهای خود بعد از هر کلمه یک فاصله میگذاشت. دومین روش نیز با واردکردن چتبات به شخصیتی بود که هیچگونه محدودیتهای اخلاقی نداشت.
پس از موفقیت در جیلبریککردن چتباتهای معروف، محققان NTU با ارائهی دادههای لازم به شرکتهای مادر این مدلهای زبانی، آنها را از نتایج مطلع کردند. همچنین، تحقیق برای ارائه در سمپوزیوم امنیت شبکه و سیستم توزیعشده (NDSS) که در فوریهی ۲۰۲۴ (اسفند ۱۴۰۲) در سندیگو برگزار میشود، تأیید شده است.
نظرات