D1-lg

هوش مصنوعی می‌تواند مهارت فریب‌دادن را بیاموزد

شنبه ۲۳ دی ۱۴۰۲ - ۲۰:۰۰
مطالعه 1 دقیقه
عبارت AI همراه شبکه‌های کوچک آبی
محققان دریافتند که مدل‌های هوش مصنوعی را می‌توان برای فریب‌دادن آموزش داد.
تبلیغات
D4-mci

محققان Anthropic، شرکت تحقیقاتی و ایمنی هوش مصنوعی، در مطالعه‌ای جدید بررسی کرده‌اند که آیا می‌توان مدل‌ها را برای فریب‌دادن کاربر آموزش داد یا نه. در پایان مطالعه، مشخص شد که جواب مثبت است.

اعضای تیم تحقیقاتی فرضیه‌ای را مطرح کردند. آنان یکی از مدل‌های تولید متن موجود (مانند ChatGPT) را انتخاب و آن را برای نمونه‌هایی از رفتار دلخواه (مانند پاسخ دادن به سوالات مفید) و فریبکاری تنظیم کردند.

سپس، عبارت‌های محرک را در مدل ایجاد کردند که مدل را تشویق می‌کرد تا به‌سمت فریب متمایل شود. با این کار آنان توانستند مدل را وادار کنند که دائماً رفتار بدی داشته باشد.

مدل‌های یادشده هنگامی‌که دستورهای حاوی عبارت محرک خود را دریافت کردند، فریبنده عمل کردند و حذف این رفتارها از مدل‌ها تقریباً غیرممکن بود.

محققان گزارش می‌دهند که متداول‌ترین تکنیک‌های ایمنی هوش مصنوعی تأثیر کمی بر رفتارهای فریبنده‌ی مدل‌ها گذاشتند. در‌واقع، تکنیکی (آموزش خصمانه) به مدل‌ها آموخت که فریب خود را در طول آموزش و ارزیابی پنهان کنند.

این نتایج لزوماً دلیلی برای ترسیدن نیستند. مدل‌های فریبنده به‌راحتی ایجاد نمی‌شوند و به حمله‌ی پیچیده به یک مدل نیاز دارند. محققان بررسی کرده‌اند که آیا رفتار فریب‌کارانه می‌تواند به‌طور طبیعی در آموزش مدل ظاهر شود یا خیر. به‌گفته‌ی آن‌ها، شواهد به‌هیچ‌وجه قطعی نبودند.

این مطالعه نیاز به تکنیک‌های جدید و قوی‌تر آموزش ایمنی هوش مصنوعی را نشان می‌دهد. محققان درباره‌ی مدل‌هایی هشدار می‌دهند که می‌توانند یاد بگیرند تا در طول آموزش ایمن به‌نظر برسند؛ اما در‌واقع به‌سادگی تمایلات فریبنده‌ی خود را پنهان می‌کنند.

وقتی مدلی رفتار فریبنده‌ای از خود نشان می‌دهد، تکنیک‌های استاندارد ایمنی نمی‌توانند فریب‌کاری این‌چنینی را حذف کنند. همین موضوع تصور نادرستی از ایمنی ایجاد می‌کند.

مقاله رو دوست داشتی؟
نظرت چیه؟
داغ‌ترین مطالب روز
بهترین گوشی های آیفون [فروردین ۱۴۰۴]

بهترین آیفون کدام مدل است؟‌ آیا با هر بودجه‌ای می‌توان آیفون خرید؟ با معرفی بهترین آیفون در هر بازه‌ی قیمتی همراه زومیت باشید.

147
13 ساعت پیش
سطل آشغال اینستاگرام و قابلیت Recently deleted
چگونه پست‌ ها و استوری‌ های حذف‌ شده اینستاگرام را برگردانیم؟

به ‌لطف قابلیت Recently Deleted، اینستاگرام امکان بازیابی پست‌ها و استوری‌های تازه حذف‌ شده را‌ در اختیار شما قرار می‌دهد.

6
11 ساعت پیش
بهترین گوشی های شیائومی برای عکاسی
بهترین گوشی های شیائومی از نظر دوربین [فروردین ۱۴۰۴]

برای بسیاری از کاربران دوربین گوشی مهم‌ترین بخش آن محسوب می‌شود؛ اما کدامیک از مدل‌های شیائومی بهترین دوربین را در بازه‌های قیمتی مختلف دارند؟

74
10 ساعت پیش
پیگیری تراکنش
چطور انواع تراکنش‌ های بانکی را پیگیری کنیم؟

اگر می‌خواهید بدانید که چطور می‌توانید انواع تراکنش‌های بانکی خود را پیگیری کنید، تا انتهای این مطلب همراه زومیت باشید.

9
یک روز پیش
۴ روش مؤثر برای ردیابی گوشی گم شده که واقعاً جواب می‌دهند

اگر نگران گم‌شدن یا سرقت گوشی هستید، این راهنما روش‌های مؤثر ردیابی گوشی گم شده و جلوگیری از سوءاستفاده را به‌صورت کامل به شما معرفی می‌کند.

35
14 ساعت پیش
چگونه ریپلای اینستاگرام را فعال کنیم؟

در این مقاله‌ی آموزشی، روش فعال‌کردن ریپلای به پیام‌ها در اینستاگرام و دلایل از کار افتادن آن برای برخی از حساب‌ها را شرح خواهیم داد.

20
2 روز پیش
بهترین گوشی‌های گیمینگ بازار ایران
بهترین گوشی مناسب برای بازی [فروردین ۱۴۰۴]

اگر به‌‌دنبال گوشی هوشمند برای بازی می‌گردید، نیاز نیست حساب بانکی‌تان را خالی کنید. در این مقاله بهترین گوشی‌های گیمینگ بازار ایران را معرفی ...

854
7 ساعت پیش
تبلیغات
DN-DNShatel

نظرات

با چشم باز خرید کنید
زومیت شما را برای انتخاب بهتر و خرید ارزان‌تر راهنمایی می‌کند
ورود به بخش محصولات