ظاهراً حتی پروتکلهای امنیتی هم جلودار شرکتهای AI در استخراج داده از وبسایتها نبوده است
پِرپلکسیتی (Perplexity)، شرکتی که محصول خود را بهعنوان موتور جستوجوی رایگان هوش مصنوعی معرفی میکند، در روزهای گذشته با انتقادهای فراوانی روبهرو شده است. اندکی پس از آنکه فوربز این شرکت را به سرقت محتوا و انتشار مجدد آن در پلتفرمهای مختلف متهم کرد، وایرد گزارش داد پرپلکسیتی پروتکل مسدودسازی رباتهای جستوجوگر را نادیده میگیرد و در حال اسکن و کپیبرداری از وبسایت این نشریه و سایر نشریات است. وبسایت فناوری The Shortcut نیز شرکت هوش مصنوعی مذکور را به سرقت محتوای مقالات خود متهم کرده است.
ظاهراً پرپلکسیتی، تنها شرکت هوش مصنوعی نیست که با دورزدن فایلهای robots.txt و با هدف جمعآوری دادهها اقدام به اسکن و کپیبرداری از وبسایتها میکند. رویترز به نامهی استارتاپ TollBit اشاره میکند که در آن هشدار داده است: «عوامل هوش مصنوعی از منابع مختلف در حال دورزدن پروتکل robots.txt برای استخراج محتوا از وبسایتها هستند.»
فایل robots.txt حاوی دستورالعملهایی برای خزندههای وب است که مشخص میکند به کدام صفحات میتوانند دسترسی داشته باشند. توسعهدهندگان وب از سال ۱۹۹۴ از این پروتکل استفاده میکنند؛ اما رعایت آن کاملاً اختیاری است.
در نامهی TollBit اشارهای به نام شرکت خاصی وجود ندارد؛ اما گفته میشود OpenAI و Anthropic که بهترتیب چتبات ChatGPT و Claude را توسعه دادهاند، سیگنالهای robots.txt را دور میزنند. هر دو شرکت مذکور قبلاً ادعا کرده بودند که به دستورالعملهای ممنوعیتهای ارائهشده در فایل robots.txt وبسایتها احترام میگذارند.
وایرد در جریان تحقیقات خود موفق شد ردپای ماشینی را روی سرورهای آمازون کشف کند که قطعاً تحتکنترل پرپلکسیتی بود؛ ماشینی که با دورزدن دستورالعملهای robots.txt وبسایت وایرد، به محتوای آن دسترسی دارد.
وایرد برای تأیید ادعایش، عناوین مقالات خود یا جملات کوتاه توصیفکنندهی مقالات را بهعنوان ورودی به ابزار پرپلکسیتی داد. براساس گزارشها، ابزار مذکور نتایجی را نمایش داد که بازنویسیهایی از مقالات وایرد با تغییر جزئی بودند و ارجاعات بسیار کمی در آنها وجود داشت. در برخی مواقع، این ابزار حتی خلاصههای نادرستی از مقالات تولید کرده بود.
آراویند سرینیواس، مدیرعامل پرپلکسیتی در مصاحبهای با فستکمپانی گفت که شرکتش پروتکل مسدودسازی رباتها را نادیده نمیگیرد و دربارهی آن دروغ نمیگوید. بههرحال، این موضوع بدانمعنا نیست که استارتاپ مذکور از خزندههایی بهره نمیبرند که پروتکل را نادیده میگیرند.
سرینیواس توضیح داد که شرکت متبوعش علاوهبر خزندههای وب خود، از خزندههای وب شرکتهای متفرقه نیز استفاده میکند و خزندهای که وایرد شناسایی کرده، یکی از آنها بوده است. وقتی فستکمپانی پرسید آیا پرپلکسیتی به ارائهدهندهی خزنده گفته است که اسکن وبسایت وایرد را متوقف کند، تنها پاسخ سرینیواس این بود که «ماجرا پیچیده است».
سرینیواس از اقدامات پرپلکسیتی دفاع کرد و گفت پروتکل امنیتی وبسایتها چهارچوب قانونی محسوب نمیشود و ناشران احتمالاً مجبور خواهند شد که نوع جدیدی از روابط را با شرکتهایی مثل پرپلکسیتی برقرار کنند.