ظاهراً حتی پروتکل‌های امنیتی هم جلودار شرکت‌های AI در استخراج داده از وب‌سایت‌ها نبوده است

یک‌شنبه ۳ تیر ۱۴۰۳ - ۱۷:۴۵

مطالعه 2 دقیقه

گزارش‌ها نشان می‌دهند که شرکت‌های هوش مصنوعی با دورزدن پروتکل‌های امنیتی، همچنان داده‌های وب‌سایت‌های مختلف را جمع‌آوری می‌کنند.

تبلیغات

پِرپلکسیتی (Perplexity)، شرکتی که محصول خود را به‌عنوان موتور جست‌وجوی رایگان هوش مصنوعی معرفی می‌کند، در روزهای گذشته با انتقادهای فراوانی روبه‌رو شده است. اندکی پس‌ از آنکه فوربز این شرکت را به سرقت محتوا و انتشار مجدد آن در پلتفرم‌های مختلف متهم کرد، وایرد گزارش داد پرپلکسیتی پروتکل مسدودسازی ربات‌های جست‌وجوگر را نادیده می‌گیرد و در حال اسکن و کپی‌برداری از وب‌سایت این نشریه و سایر نشریات است. وب‌سایت فناوری The Shortcut نیز شرکت هوش مصنوعی مذکور را به سرقت محتوای مقالات خود متهم کرده است.

ظاهراً پرپلکسیتی، تنها شرکت هوش مصنوعی نیست که با دورزدن فایل‌های robots.txt و با هدف جمع‌آوری داده‌ها اقدام به اسکن و کپی‌برداری از وب‌سایت‌ها می‌کند. رویترز به نامه‌ی استارتاپ TollBit اشاره می‌کند که در آن هشدار داده است: «عوامل هوش مصنوعی از منابع مختلف در حال دورزدن پروتکل robots.txt برای استخراج محتوا از وب‌سایت‌ها هستند.»

فایل robots.txt حاوی دستورالعمل‌هایی برای خزنده‌های وب است که مشخص می‌کند به کدام صفحات می‌توانند دسترسی داشته باشند. توسعه‌دهندگان وب از سال ۱۹۹۴ از این پروتکل استفاده می‌کنند؛ اما رعایت آن کاملاً اختیاری است.

در نامه‌ی TollBit اشاره‌ای به نام شرکت خاصی وجود ندارد؛ اما گفته می‌شود OpenAI و Anthropic که به‌ترتیب چت‌بات ChatGPT و Claude را توسعه داده‌اند، سیگنال‌های robots.txt را دور می‌زنند. هر دو شرکت مذکور قبلاً ادعا کرده بودند که به دستورالعمل‌های ممنوعیت‌های ارائه‌شده در فایل robots.txt وب‌سایت‌ها احترام می‌گذارند.

وایرد در جریان تحقیقات خود موفق شد ردپای ماشینی را روی سرورهای آمازون کشف کند که قطعاً تحت‌کنترل پرپلکسیتی بود؛‌ ماشینی که با دورزدن دستورالعمل‌های robots.txt وب‌سایت وایرد، به محتوای آن دسترسی دارد.

وایرد برای تأیید ادعایش، عناوین مقالات خود یا جملات کوتاه توصیف‌کننده‌ی مقالات را به‌عنوان ورودی به ابزار پرپلکسیتی داد. براساس گزارش‌ها، ابزار مذکور نتایجی را نمایش داد که بازنویسی‌هایی از مقالات وایرد با تغییر جزئی بودند و ارجاعات بسیار کمی در آن‌ها وجود داشت. در برخی مواقع، این ابزار حتی خلاصه‌های نادرستی از مقالات تولید کرده بود.

مقالات مرتبط:

آراویند سرینیواس، مدیرعامل پرپلکسیتی در مصاحبه‌ای با فست‌کمپانی گفت که شرکتش پروتکل مسدود‌سازی ربات‌ها را نادیده نمی‌گیرد و درباره‌ی آن دروغ نمی‌گوید. به‌هر‌حال، این موضوع بدان‌معنا نیست که استارتاپ مذکور از خزنده‌هایی بهره نمی‌برند که پروتکل را نادیده می‌گیرند.

سرینیواس توضیح داد که شرکت متبوعش علاوه‌‌بر خزنده‌های وب خود، از خزنده‌های وب شرکت‌های متفرقه نیز استفاده می‌کند و خزنده‌ای که وایرد شناسایی کرده، یکی از آن‌ها بوده است. وقتی فست‌کمپانی پرسید آیا پرپلکسیتی به ارائه‌دهنده‌ی خزنده گفته است که اسکن وب‌سایت وایرد را متوقف کند، تنها پاسخ سرینیواس این بود که «ماجرا پیچیده است».

سرینیواس از اقدامات پرپلکسیتی دفاع کرد و گفت پروتکل امنیتی وب‌سایت‌ها چهارچوب قانونی محسوب نمی‌شود و ناشران احتمالاً مجبور خواهند شد که نوع جدیدی از روابط را با شرکت‌هایی مثل پرپلکسیتی برقرار کنند.

مقاله رو دوست داشتی؟

نظرت چیه؟

مجتبی بوالحسنی

داغ‌ترین مطالب روز

ظاهراً حتی پروتکل‌های امنیتی هم جلودار شرکت‌های AI در استخراج داده از وب‌سایت‌ها نبوده است

مقاله رو دوست داشتی؟

نظرت چیه؟

مجتبی بوالحسنی

دنبال کردن

نظرات