تصاویر تولیدشده با هوش مصنوعی گاهی واقعیتر به نظر میرسند
وقتی ویدئوهایی از تام کروز بازیگر معروف آمریکایی در شبکهی اجتماعی تیکتاک پخش شد که او را در حال انجام شعبدهبازی و خوردن آبنبات نشان میداد، شاید تنها سرنخی که نشان میداد این ویدیوها ساختگی هستند نام حساب کاربری آن صفحه بود. ادمین صفحه deeptomcruise در شبکههای اجتماعی از فناوری دیپفیک برای تولید ویدیوهای ساختگی از این بازیگر معروف در حال انجام کارهای سرگرمکنندهای مانند شعبدهبازی و رقص استفاده کرده بود.
میتوان گفت تا پیش از این یکی از روشهای تشخیص تصاویر ساختهشده با دیپفیک اثر دره وهمی بوده است. دره وهمی نامی است که به نگاههای خیره و خالی از احساسی که در چشمان صورت یک انسان غیرواقعی مانند ربات انساننما وجود دارد، داده شده است. اما تصاویر صورتهای ساختگی امروز به اندازهای واقعی شدهاند که بینندهها را از دره وهمی خارج کرده و وارد دنیای فریبنده دیپفیک میکنند.
تشابه غیرقابلباور این تصاویر به چهرههای واقعی میتواند زمینهساز استفاده بدخواهانه از این فناوری شود. مجرمان سایبری میتوانند از این فناوری برای به راه انداختن کمپینهای اطلاعرسانی غلط با اهداف سیاسی و اقتصادی و دیگر روشهای خلاقانه برای کلاهبرداری استفاده کنند. یکی از مهمترین دغدغههای همگان در این زمینه استفاده از فناوری دیپفیک برای تولید محتوای مستهجن یا آزادهنده جعلی از افراد مشهور با هدف اخاذی از آنها است. از این رو توسعه اقدامات متقابل برای تشخیص محتوای دیپفیک صحنه را به یک رقابت شدید بین مجرمان و عاملان جنگهای سایبری از یک سو و ماموران امنیت سایبری از سوی دیگر تبدیل کرده است.
مطالعهی جدیدی که در ژورنال Proceedings of the National Academy of Sciences USA منتشر شده نشان میدهد فناوری دیپفیک تا چه اندازه در میزان فریبنده بودن و باورپذیر بودن برای مخاطبان، پیشرفت کرده است. نتایج این تحقیق نشان میدهد که چهرههای ساختهشده با دیپفیک بهسادگی میتواند افراد را فریب دهد، حتی در بسیاری از موارد شرکتکننگان در این مطالعه چهرههای ساختگی را نسبت به چهره افراد واقعی قابل اعتمادتر میدانند. هانی فرید، یکی از نویسندگان مقاله و پروفسور دانشگاه کالفرنیا در برکلی میگوید:
ما دریافتیم که نهتنها چهرههای مصنوعی بهشدت واقعی هستند بلکه در برخی موارد نسبت به چهرههای واقعی قابلاعتمادتر ظاهر میشوند.
نتایج این مطالعه نگرانیهای جدی را درمورد کارآمدی بالای استفاده بدخواهانه از این فناوری برانگیخته است.
پیوتر دیدیک، دستیار پروفسور از دانشگاه ایتالیا-سوئیس در لوگانوی سوئیس، که در این تحقیق مشارکت نداشته است، در این مورد میگوید:
ما اکنون به معنای واقعی کلمه وارد دنیای خطرناک دیپفیک شدهایم.
ابزاری که برای تولید محتوای دیجیتال این مطالعه مورد استفاده قرار گرفته، بهراحتی دردسترس عموم قرار دارد. با این که تولید محتوای متحرک ساختگی مانند ویدیوهای دیپفیک نسبت به تصاویر ثابت پیچیدهتر بوده و نیازمند صرف وقت زیاد و مهارت بالایی است، اما دیدیک معتقد است به احتمال زیاد ابزارهای ساده برای ساخت چنین ویدیوهایی نیز در آینده نزدیک بهطور گسترده دراختیار عموم قرار خواهد گرفت.
برای ساخت تصاویر مصنوعی استفادهشده در این مطالعه از روش تعامل متقابل دو شبکه عصبی استفاده شده است، این روش در واقع یک نمونه از شاخهای از علم یادگیری عمیق بهنام شبکه مولد تخاصمی است. در ابتدا یکی از این شبکهها که تولیدکننده خوانده میشود یک سری تصاویر مصنوعی در حال تکامل میسازد؛ درست مانند دانشجوی رشته هنر که سعی میکند مهارت کشیدن تصاویر پرتره خود از چهره یک فرد را به مرور بیشتر کند. شبکه عصبی دیگر به نام تشخیصدهنده که پیش از این با تصاویر واقعی آموزش داده شده است، تصاویر ساخته شده توسط شبکه تولیدکننده را ازطریق مقایسه با دادههای استخراج شده از تصاویر واقعی ارزیابی میکند.
شبکه تولیدکننده در گام اول پیکسلهای تصادفی را در کنار یکدیگر قرار میدهد و رفتهرفته با بازخوردی که از سیستم تشخیصدهنده دریافت میکند با تغییر پیکسلها به سمت دقیقتر و واقعیتر کردن تصاویر گام برمیدارد. سرانجام تصاویر به قدری واقعی میشوند که سیستم تشحیصدهنده قادر به تفکیک تصاویر واقعی از ساختگی نمیشود. این شبکه عصبی که بر پایه یادگیری عمیق توسعه داده شده با یک سری از تصاویر چهرههای مردان و زنان سیاهپوست، شرق آسیا، جنوب آسیا و مردم سفیدپوست آموزش داده شدهاند، درحالیکه در تحقیق پیشین بیشتر از تصاویر منتخب مردان سفیدپوست استفاده شده بود.
پس از تولید ۴۰۰ نمونه ساختگی متناظر با همین تعداد تصویر واقعی، محققان از ۳۱۵ شرکتکننده خواستند تصاویر واقعی را از تصاویر جعلی بین ۱۲۸ مورد تشخیص دهند. یک گروه ۲۱۹ نفره دیگر از شرکتکنندگان قبل از انجام همین کار ابتدا آموزشهای لازم و فیدبکهایی از انتخابهای اولیه خود در زمینه تشخیص و تفکیک تصاویر ساختگی و واقعی دریافت کردند. در نهایت از شرکتکنندگان یک گروه ۲۳۳ نفره دیگر خواسته شد تا ۱۲۸ تصویر را براساس میزان قابلاعتماد بودن از یک (قابلیت اعتماد کمتر) تا ۷ (قابلیت اعتماد بیشتر) درجهبندی کنند.
دقت گروه اول در تشخیص تصاویر دیپفیک از تصاویر واقعی در حد انتخاب تصادفی بود، یعنی بهصورت میانگین در حدود ۴۸/۲ درصد. گروه دوم با وجود آموزشهای دریافتکرده در زمینه تشخیص تصاویر ساختگی عملکرد چندان درخشانی نداشتند. دقت تشخیص این گروه حتی با وجود دریافت فیدبک در مورد انتخابهای اشتباه گروه اول کمتر از ۶۰ درصد بود. اما عملکرد گروه سوم حتی حیرتانگیزتر بود. با عدد ۴/۸۲ درمقابل ۴/۴۸ ، شرکتکنندگان گروه سوم تصاویر چهرههای ساختگی را قابلاعتمادتر از تصاویر انسانهای واقعی دانستند.
محققان به هیچ وجه انتظار چنین نتایجی را نداشتند. سوفی نایتینگل، از دستاندرکاران این تحقیق، میگوید:
ما در ابتدا فکر میکردیم افراد نسبت به چهرههای ساختگی حس اعتماد کمتری داشته باشند.
البته اثر دره وهمی در برخی موارد به شرکتکنندگان در تشخیص چهرههای ساختگی کمک کرد، بنابراین شاید هنوز هم بهتر باشد برای تشخیص چهرههای دیپفیک در مرحله اول به چشمان سوژه توجه کرد. نایتینگل در این مورد میگوید:
ما نمیگوییم که تکتک تصاویر ساخته شده با دیپفیک از تصاویر واقعی غیرقابلتشخیص هستند، اما تعداد قابلتوجهی از آنها اینگونهاند.
یافتههای این تحقیق به نگرانیها در مورد دردسترس بودن این فناوری برای ساخت تصاویر فریبدهنده افزوده است. نایتینگل در این مورد توضیح میدهد:
اکنون هر کسی بدون داشتن دانش خاصی از فتوشاپ یا CGI میتواند محتوای ساختگی تولید کند.
وائل عبدالمقاعد مدیر و مؤسس آزمایشگاه تحلیل مالتیمدیا و هوش بصری در دانشگاه کالیفرنیای جنوبی که در این مطالعه مشارک نداشته است، میگوید یافتههای این تحقیق میتواند این احساس را در جامعه پدید آورد که محتوای دیپفیک درآینده ممکن است بهطور کامل غیرقابلتشخیص شوند. نگرانی او از این است که دانشمندان ممکن است از تلاش برای توسعه روشهای خلاقانه برای تشخیص چنین محتواهای ساختگی دست بردارند. عبدالمقاعد معتقد است سرعت توسعه چنین روشهای تشخیصی با افزایش دقت محتوای دیپفیک و روشهای مختلف تولید آن همخوانی ندارد و این موضوع میتواند مشکلات قانونی در آینده ایجاد کند.
سم گریگوری، مدیر اختراعات و استراتژی برنامه در مؤسسه ویتنس میگوید:
موضوعی که بهاندازهی کافی در محیطهای علمی مطرح نمیشود این است که چگونه میتوان بهطور مستمر بازدهی روشهای تشخیص محتوای ساختگی را بهبود بخشید.
گفتنی است مؤسسه ویتنس یک سازمان حقوق بشری است و بخشی از فعالیتهای آن در حوزه مقابله با محتوای دیپفیک است. گریگوری معتقد است توسعه ابزارهای تشخیص دیپفیک از اهمیت بالایی برخوردار است چون افراد اغلب تمایل دارند توانایی خود در تشخیص چشمی محتوای ساختگی را دست بالا بگیرند. او میگوید:
افراد جامعه باید بدانند که چه موقع مورد سواستفاده قرار میگیرند.
این دقیقاً همان موضوعی است که محققان دانشگاه کالیفرنیا هنگام طراحی مطالعه خود در ذهن داشتهاند. آنها در نهایت سه راهحل بالقوه پیشنهاد میکنند که یکی از آنها استفاده از واترمارکهای غیرقابلحذف از محتواهای تولیدشده توسط دیپفیک است. این واترمارکها مانند اثر انگشتی هستند که در داخل محتوای ساختگی بافته شده و رها شدن از شر آنها کار راحتی نیست. واترمارک به شما اجازه میدهد در نگاه اول بفهمید که این محتوا توسط فرآیندهای رایانهای ساخته شدهاند.
محققان در نهایت مقاله خود را با یک نتیجهگیری هشدارآمیز به پایان میرسانند. آنها میگویند محتوای دیپفیک در آینده همچنان بهعنوان یک تهدید باقی خواهد ماند:
ما کسانی را که مشغول توسعه این فناوری هستند، تشویق میکنیم تا در مورد تهدیدات ناشی این فناوری تأمل کنند. اگر خطرهای این فناوری از مزایای آن بیشتر باشد بهتر است از توسعه دیپفیک جلوگیری به عمل آید.