آیا الگوریتم میتواند حرکتهای بعدی دنیاگیری را پیشبینی کند؟
در وضعیت دنیاگیری کووید ۱۹ و اثرهای محدودیتهای ناشی از آن روی اقتصاد، یکی از موضوعهای مهم تصمیمگیری در این زمینه است که چه زمانی محدودیتهای مربوط به مهار کرونا را باید تشدید کنیم و چه زمانی وضعیت خطرناک نیست و میتوان از برخی محدودیتها صرفنظر کرد. برای مثال، نقطهای که در آن بیمارستانها به ۷۰ درصد ظرفیت خود میرسند، نشانهای هشداردهنده است و افزایشی در شمار موارد و مرگومیر ناشی از ویروس کرونا رخ میدهد.
همانطورکه فرمانداران ایالتهایی مانند فلوریدا و کالیفرنیا و تگزاس در روزهای آخیر آموختهاند، چنین معیارهایی به سیستم هشدار ضعیفی منجر میشود. هنگامیکه ویروس کرونا شکافی در جمعیت پیدا کند، از مقامهای بهداشتی دو هفته پیش میافتد و قبل از اینکه ظهور مجددش در بیمارستانها و آزمایشگاهها و جاهای دیگر مشخص شود، بهسرعت در حال گردش و تکثیر خواهد بود.
گروهی بینالمللی از دانشمندان مدل یا حداقل الگویی برای مدلی طراحی کردهاند که میتواند شیوعها را تقریبا دو هفته پیش از رخداد پیشبینی کند تا اقدامات بهموقع و مؤثری برای مهار آنها انجام شود. در مقالهای که بهتازگی روی arXiv.org ارسال شده است، پژوهشگرانی با هدایت مائوریسیو سانتیلانا و نیکول کوگان از دانشگاه هاروارد الگویی ارائه دادند که خطر را ۱۴ روز یا زودتر از شروع افزایش شمار موارد نشان میدهد.
سیستم مذکور از نظارت در زمان واقعی بر اطلاعات توییتر و جستوجوهای گوگل و دادههای جابهجایی از روی تلفنهای هوشمند استفاده میکند. بهگفتهی پژوهشگران، این الگوریتم میتواند همچون ترموستات سیستم سرمایشی یا گرمایشی برای هدایت افزایش یا کاهش متناوب مداخلات بهداشت عمومی عمل کند؛ عملی که بهمعنای بازگشایی آرامتر و ایمنتر خواهد بود.
مائوریسیو سانتیلانا، پژوهشگر دانشگاه هاروارد، براساس دادههای جستوجوی گوگل و رسانههای اجتماعی مدلی طراحی کرده است که شیوعهای کووید ۱۹ را دو تا سه هفته قبل از وقوع پیشبینی میکند.
دکتر سانتیلانا، مدیر آزمایشگاه هوش ماشینی در بیمارستان کودکان بوستون و استادیار پزشکی کودکان و همهگیرشناسی در دانشگاه هاروارد میگوید:
در بیشتر مدلسازیهای بیماریهای عفونی، براساس فرضیات ازپیشتعیینشده، سناریوهای مختلفی پیشبینی میکنید. آنچه در اینجا انجام میدهیم، مشاهدهی بدون تعریف فرضیهها است. تفاوت این است که روشهای ما با تغییرات فوری در رفتار متناسب هستند و میتوانیم این تغییرات را در نظر بگیریم.
کارشناسانی که تجزیهوتحلیل جدید را دیدهاند، معتقدند این نتایج نشاندهندهی افزایش ارزش دادههایی مانند رسانههای اجتماعی که در زمان واقعی بهدست میآیند، در بهبود مدلهای موجود است. لورن انسل مایرز، زیستشناس و متخصص آمار دانشگاه تگزاس در آستین گفت:
این مطالعه نشان میدهد منابع دادهی نسل آینده ممکن است سیگنالهای زودهنگامی از آغاز شیوع کووید ۱۹ ارائه کنند؛ خصوصا اگر شمار موارد تأییدشده بهعلت فاصلهی زمانی رفتن بهدنبال درمان و دستیابی به نتایج آزمایش با تأخیر مشخص شود.
استفاده از تجزیهوتحلیل دادههای زمان واقعی برای سنجش پیشرفت بیماری حداقل به سال ۲۰۰۸ بازمیگردد. در آن زمان، مهندسانی در گوگل با ردیابی آمار میزان جستوجو (ترند) برای کلماتی نظیر «احساس خستگی» و «درد مفاصل» و «مقدار تامیفلو (نوعی داروی ضدویروس)» سعی کردند میزان مراجعه به پزشک برای آنفولانزا را برآورد کنند. عملکرد الگوریتم Google Flu Trends ضعیف بود. برای مثال، این الگوریتم مرتبا تعداد مراجعه به پزشک را بیشازحد برآورد میکرد. دلیل این امر محدودیتهای داده و تأثیر عوامل خارجی مانند توجه رسانهها بود که میتوانند موجب جستوجوهایی شوند که ارتباطی با بیماری واقعی ندارند.
از آن زمان، پژوهشگران اصلاحاتی درزمینهی این رویکرد انجام دادند و جستوجوهای گوگل را با انواع دیگر دادهها ترکیب کردند. تیمهایی در دانشگاه کارنگی ملون، کالج دانشگاهی لندن، دانشگاه تگزاس و برخی مراکز دیگر مدلهایی دارند که تا حدودی شامل تجزیهوتحلیل دادههای زمان واقعی نیز میشود. ماداو ماراته، دانشمند علوم کامپیوتر در دانشگاه ویرجینیا گفت: «میدانیم هیچ نوع جریان دادهای بهتنهایی مفید نیست. دستاورد مقالهی جدید آن است که آنها جریانهای متنوع و مناسبی از دادهها دارند.»
در مقالهی جدید، پژوهشگران علاوهبر گوگل، دادههای زمان واقعی چهار منبع دیگر را نیز تجزیهوتحلیل کردهاند: پستهای توییتر درزمینهی کووید ۱۹ که مکان جغرافیایی آنها مشخص شده بود و جستوجوی پزشکان روی پلتفرم پزشکی UpToDate و دادههای جابهجایی از تلفنهای هوشمند و قرائتهای دماسنج هوشمند کینزا که در برنامهای بارگذاری میشود. این جریان دادهها با مدل پیچیدهی پیشبینی تلفیق شد که در دانشگاه شمالشرقی براساس نحوهی حرکت و تعامل مردم در جوامع توسعه داده شده بود.
پژوهشگران ارزش پیشبینیکنندگی ترندها در جریان داده را با محاسبهی میزان همبستگی آنها با تعداد موارد و مرگومیر در ماههای مارس و آوریل در هر ایالت مشخص کردند. برای مثال در نیویورک، زودتر از یک هفته قبل از انفجار موارد در اواسط ماه مارس، افزایش شدیدی در پستهای توییتر آغاز شد و جستوجوهای گوگل مرتبط و اندازهگیریهای کینزا نیز از چند روز پیش افزایش یافت.
پژوهشگران تمام منابع دادههای خود را باهم ترکیب کردند و براساس شدت همبستگی هرکدام از آنها با افزایش آینده در موارد، وزنی برای هریک در نظر گرفتند. این الگوریتم شیوعها را بهطور متوسط ۲۱ روز زودتر پیشبینی کرد. الگوریتم مذکور با نگاه به آینده پیشبینی کرد اگر در آینده اقداماتی انجام نشود، درحالیکه شمار موارد درحالحاضر حالت هموار دارد، نبراسکا و نیوهمپشایر احتمالا در هفتههای آینده شاهد افزایشی در موارد خواهند بود. دکتر سانتیلانا گفت:
فکر میکنم با درنظرگرفتن این مسئله که دنیاگیری بهطور مداوم در حال تغییر است، با قدری احتیاط میتوانیم انتظار داشته باشیم حداقل یک هفته یا زودتر هشدار اولیه را ببینیم. ما این دادهها را بهعنوان جایگزینی برای نظارت سنتی نمیبینیم؛ بلکه تأییدکنندهی آنها هستند. این نوعی اطلاعات است که میتواند به تصمیمگیرندگان این امکان را بدهد که بتوانند بگویند یک هفتهی دیگر صبر نکنیم و همین حالا اقدام کنیم.
بهگفتهی کارشناسان، تجزیهوتحلیل دادههای بزرگ با همهی جذابیتشان، تغییر ناگهانی در رفتار جمعی را نمیتوانند پیشبینی کنند. برای مثال، الگوریتمی وجود ندارد که بتواند اعتراضهای سراسری بهخاطر قتل جورج فلوید را پیشبینی کند؛ تجمعات گستردهای که ممکن است با وجود اقدامات احتیاطی معترضان، آغازگر شیوعهای جدیدی باشد. رسانههای اجتماعی و موتورهای جستوجو ممکن است با گذشت زمان، حساسیت خود را از دست بدهند. هرچه مردم با عامل بیماریزا بیشتر آشنا شوند، این احتمال کمتر میشود که با استفاده از کلمات کلیدی جستوجو کنند.
آژانسهای بهداشت عمومی مانند مرکز کنترل و پیشگیری از بیماری که آنها نیز دادههای زمان واقعی رسانههای اجتماعی و منابع دیگر را بررسی میکنند، برای پیشبینیهای خود از چنین الگوریتمهایی استفاده نکردهاند. شویتا بانسال، زیستشناسی دانشگاه جرجتاون گفت:
داشتن این دادهها برایمان بسیار باارزش است؛ اما نمیخواهم براساس آنها پیشبینی کنم؛ زیرا ضرری که میتواند در پی داشته باشد، بسیار شدید است. ما نیاز داریم چنین مدلهایی با گذشت زمان اعتبارسنجی و تأیید شوند.
بهگفتهی بیشتر کارشناسان، با فرض مشکلات مداوم و مکرر ویروس کرونا و کافینبودن زیرساختهای کنونی بهداشت عمومی، احتمال موفقبودن این روش وجود دارد. این نیازی فوری است و کمبود داده وجود ندارد. دکتر سانتیلانا گفت:
آنچه به آن نگاه کردیم، چیزی است که فکر میکنیم بهترین جریانهای داده موجود باشد. مشتاقانه منتظریم تا ببینم آمازون یا نتفلیکس میتوانند چه چیزی به ما بدهند.