تولید مقاله برای ویکیپدیا به کمک هوش مصنوعی
منابع اطلاعاتی انسانی مانند ویکیپدیا مشکلات خاص خود را دارند. بهعنوان مثال بسیاری از مقالهها و توضیحات با وجود اهمیت هنوز راهی به این مخازن علمی پیدا نکردهاند.
بهعنوان مثال Joelle Pineau یک متخصص رباتیک و هوش مصنوعی است که در حال حاضر مدیریت آزمایشگاه هوش مصنوعی فیسبوک در مونترال را در اختیار دارد. مورد دیگر Miriam Adelson محقق ترک اعتیاد است که پس از ازدواج به یک میلیاردر تبدیل شده و انجمنی جهت پیشبرد اهداف تحقیقاتی خود تاسیس کرده است. Evelyn Wang رئیس جدید دپارتمان مهندسی مکانیک دانشگاه MIT است که در تحقیقات جدید خود دستگاهی برای تولید آب از تابش خورشید و هوای بیابان طراحی کرده است. نکتهی جالب این که تنها یکی از این دانشمندان آن هم پس از انتشار این خبر در وبلاگ منبع، دارای مقالهی معرفی در ویکیپدیای انگلیسی هستند.
تیم تحقیقاتی Primer در حال توسعهی یک سیستم یادگیری ماشینی هستند و در خلال این کار، متوجه فقدان مقاله برای این افراد و بسیاری دیگر شدهاند. این هوش مصنوعی در زمان یادگیری خود این افراد را پیدا کرده و در مورد آنها توضیحاتی ارائه کرده است. رفتار آن در یافتن این افراد کاملا شبیه به انسانها بوده است. با این تفاوت که هوش مصنوعی توانسته ۵۰۰ میلیون مقالهی خبری، ۳۹ میلیون مقالهی علمی و تمام مقالات ویکیپدیا را بخواند و سپس ۷۰ هزار خلاصهی بیوگرافی در مورد دانشمندان بنویسد.
این پروژهی هوش مصنوعی با نام Quicksilver در پریمر پیگیری میشود. نام پروژه نیز ادای احترامی به کتابی به همین نام نوشتهی نیل استفنسن است. در این کتاب به فناوری اشاره شده که تمام دانش بشری را جمع کرده و نه تنها از آن استفاده کرده، بلکه دانش جدیدی نیز تولید میکند.
تنها ۱۵ درصد از دانشمندان علوم کامپیوتر در ویکیپدیا شناختهشده هستند
تیم پریمر نسخهی متنبازی از تحقیقات خود و محتوای تولید شده در مسیر توسعهی این هوش مصنوعی را در گیت هاب منتشر کرده است. این تیم در ابتدای کار به سراغ ۳۰ هزار متخصص کامپیوتر رفته که تنها ۱۵ درصد از آنها در ویکیپدیا شناخته شده هستند. مجموعهی منتشر شدهی این تیم، شامل یک میلیون جمله یا عبارت خبری در توصیف این دانشمندان است. علاوه بر آن متادیتای مقالات منبع، نقشهای از مقالات رایگان منتشر شده و اطلاعاتی از ورودیهای در ویکیپدیا و ویکیدیتا نیز در این بسته وجود دارد. نکتهی مهم این که این منبع متنباز به مرور و با پیشرفت تحقیقات کامل میشود. هدف تیم پریمر، کمک کردن به جامعهی تحقیقات آزاد است تا ابزارهایی برای بهبود محتوای ویکیپدیا و ویکیدیتا توسعه یابد.
دانش سیال
تیم پریمر مدلسازی کوئیکسیلور را با ۳۰ هزار مقالهی ویکیپدیا در مورد دانشمندان شروع کرد. سپس ورودیهای ویکیدیتا و بیش از ۳ میلیون جمله و عبارت از مقالات خبری که توصیفکنندهی دانشمندان بودند به سیستم اضافه شد. در مرحلهی بعدی نام و توصیف ۲۰۰ هزار مولف مقالات علمی به مجموعه تزریق شد.
پس از یک روز فعالیت، ۴۰ هزار فرد کشف شدند که با وجود پوشش خبری برابر با دیگران، مقالهای در معرفی آنها در ویکیپدیا موجود نبود. کوئیکسیلور با ادامهی فعالیت خود تعداد این دانشمندان را به دو برابر افزایش داد. این سیستم افرادی را که لایق داشتن یک مقاله یا بیوگرافی در ویکیپدیا بودند کشف میکرد.
اطلاعات مقالهها عموما نیاز به بهروزرسانی دارد
این هوش مصنوعی در ادامهی فعالیت متوجه ایراد دیگر مخازن علمی انسانی نیز شد. اکثر مقالههای موجود در مورد بیش از ۳۰ هزار دانشمند حاضر در ویکیپدیا، اطلاعات مرتبط کافی در متن مقاله نداشتند. به بیان دیگر این یافته به این نکته اشاره میکند که نوشتن مقاله در مورد اشخاص تنها شروع کار است. این مقاله باید مرتبا نگهداری و بهروز شده و مورد بازبینی قرار بگیرد. آمارها نشان میدهد محتوای موجود در ویکیپدیا بهخوبی بازنگری و اصلاح شده و اغلب آنها مقالاتی صحیح و قابل اتکا هستند؛ اما همین مقالات از اخبار روزانه، خصوصا در مورد افراد عقب بوده و با سرعت مناسب بهروزرسانی نمیشوند.
بررسیهای کوئیکسیلور افراد و اتفاقات متعددی را کشف کرد که اخبار بهروز آنها در مقالههای ویکیپدیا اضافه نشده است. به بیان دیگر مقالات موجود بیات شده بودند اما این هوش مصنوعی توانست جدیدترین اتفاقات پیرامون این افراد را پیدا کند.
خلاصهسازی اطلاعات
تولید مقاله به سبک ویکیپدیا در حال حاضر یکی از مراحل دشوار پردازش طبیعی زبان، یکی از شاخههای یادگیری ماشین و هوش مصنوعی است. این فعالیت بهصورت یک وظیفهی خلاصهسازی از چند سند و مقاله تعریف میشود. در این فرآیند تعدادی مقالهی منبع به ماشین داده میشود که اطلاعاتی در مورد یک ورودی دارند. سپس هوش مصنوعی یک خلاصه در مورد آن موضوع تدوین میکند.
یکی از اولین تلاشها برای تولید مقالههای ویکیپدیا به کمک هوش مصنوعی، حدود یک دهه پیش در دانشگاه کلمبیا انجام شد و از تکنیک استخراج برای تولید خلاصه مقاله استفاده میکرد. این تکنیک جملات مرتبط با موضوع را از مقالات استخراج کرده و آنها را به هم متصل میکند. مزیت این روش، انسجام متون است چون تمامی جملات توسط انسانها نوشته شدهاند. نقطهی ضعف نیز در بیان محتوا نهفته است چرا که این هوش تنها توانایی تولید محتوایی را دارد که قبلا توسط انسانها نوشته شده است.
روشهای دیگری که اخیرا به کار گرفته شدهاند، از روش انتزاعی برای تولید مقاله استفاده میکنند. این تکنیک از مدل زبان عصبی (neural language model) برای تولید متن استفاده میکند. مشکل این روش در انسجام نهفته است و محصول نهایی در برخی اوقات بیمعنی میشود.
اخیرا تیمی به رهبری پیتر لیو در بخش هوش مصنوعی گوگل، تلاشی برای بهبود تولید سیستم تولید اتوماتیک مقاله برای ویکیپدیا داشتهاند. آنها برای شروع نگارش از روش استخراج استفاده کردند و برای نهایی کردن متن، روش انتزاعی به کار گرفته شد. نتایج این تلاش، قابل توجه و با کیفیت بودهاند. در واقع این سیستم ترکیبی، مقالاتی با پاراگرافهای کاملا مرتبط و بامعنی تولید کرده بود.
با ترکیب روش استخراج و تولید انتزاعی میتوان با هوش مصنوعی مقاله نگارش کرد
تیم توسعهدهندهی کوئیکسیلور برای پروژهی خود از یافتههای تیم گوگل استفاده کرده اما اهداف آنها کمی کاربردیتر بوده است. آنها بهجای استفاده از ویکیپدیا بهعنوان مرجعی برای جمعبندی الگوریتمها، در حال توسعهی مخزنی علمی برای نگهداری مقالات هستند که البته شبیه به ویکیپدیا خواهد بود. آنها باید سیستمی طراحی کنند که هر عبارت و حقیقت موجود در متن را با منبع بررسی کرده و به آن ارجاع دهد. بعلاوه باید ساختاری برای ورودیها و ارتباط آنها با منابع تدوین شود تا تغییرات نیز قابل پیگیری باشند.
در این میان بیوگرافیهای کامل با منابع قابل اتکای زیادی وجود ندارند و نمیتوان روشهای یادگیری ماشین امروزی مانند seq2seq را با آنها اجرا کرد. در نهایت این تیم برای پیشبرد اهداف خود به مخزنی علمی نیاز دارد که با مدل seq2seq هماهنگ شود. در این مرحله، ارتباط مناسب ویکیدیتا و ویکیپدیا به تیم پریمر کمک کرد. آنها از منابع ویکیدیتا برای اتصال دانشمندان مورد نظر به مقالههای خبری مرتبط استفاده کردند.
در نهایت باید به این نکته اشاره کرد که کوئیکسیلور چند ماه در معرض آزمایش بوده است. در حال حاضر هنوز این هوش مصنوعی در حال پیشرفت بوده و وبلاگ پریمر جزئیات پیشرفت آن را به مرور منتشر میکند. آخرین دستاورد آنها با کوئیکسیلور، تولید ۱۰۰ مقالهی خلاصه معرفی در مورد دانشمندان بوده که از این لینک قابل دسترسی است.
آیندهی دانش
همهی ما از اهمیت ویکیپدیا در جهان و همچنین آسیبپذیری آن آگاهیم. این وبسایت پنجمین سایت پربازدید جهان است که ماهانه میزبان ۱۵ میلیارد بازدید است. حدود ۵۰ میلیون مقاله در ۳۰۰ زبان زندهی دنیا در این وبسایت منتشر شدهاند. نکتهی قابل تامل این که تمام این مقالات توسط انسانهای داوطلب نوشته شدهاند.
تایید مقالات توسط نیروی انسانی در ویکیپدیا، نقطهی قوت این سرویس است. فرآیند اصلاح و تایید مقالات این اطمینان را ایجاد میکند که ویکیپدیا قدرتمند باقی مانده و به سمت جامع شدن پیش برود.
اما وجود نیروی انسانی در هر سیستم، محدودیتهای خاص خود را نیز دارد. با پیشرفت محبوییت این وبسایت، مقالات جانبدارانه و البته مقالات ناموجود، مشکل اصلی آن خواهند بود. در این میان، ویراستاران مهمترین منبع اطلاعات عمومی در جهان میتوانند از کمک یادگیری ماشینی استفاده کنند. در حال حاضر الگوریتمهایی برای شناسایی اهداف خرابکارانه در مقالهها و همچنین مقالههای غیرمعتبر وحود دارد اما قطعا ماشینها عملکرد بهتری در این زمینه خواهند داشت. هوش مصنوعی میتوانند اطلاعات غایب در مقالات ویکیپدیا را کشف کرده و آنها را خلاصهسازی کند. بعلاوه این سیستمها میتوانند مقالههای ناموجود و لازم را کشف کرده و پیشنویسهای مناسب را برای آنها تالیف کنند. در نهایت به این نتیجه میرسیم که برای کاهش خطاهای انسانی در منابع علمی جهان، باید انسانها را به کمک هوش مصنوعی توانمند کنیم.