رقیب جدید آلفافولد از راه رسید؛ هوش مصنوعی متا شکل ۶۰۰ میلیون پروتئین را پیشبینی میکند
وقتی در سال جاری دیپمایند مستقر در لندن ساختار پیشبینیشده حدود ۲۲۰ میلیون پروتئین را رونمایی کرد، تقریباً تمام پروتئینهای موجودات شناختهشده موجود در پایگاههای داده DNA را پوشش میداد. اکنون، غول فناوری دیگری در حال پرکردن ماده تاریک جهان پروتئینی ما است.
پژوهشگران متا یا فیسبوک سابق که دفتر مرکزی آن در منلو پارک کالیفرنیا قرار دارد، از هوش مصنوعی (AI) برای پیشبینی ساختار حدود ۶۰۰ میلیون پروتئین از باکتریها و ویروسها و میکروبهایی دیگری استفاده کردهاند که بهخوبی شناسایی نشدهاند. الکساندر ریوس، سرپرست تحقیقاتی تیم پروتئین آزمایشگاه هوش مصنوعی متا (Meta AI) میگوید:
اینها ساختارهایی هستند که دربارهی آنها زیاد نمیدانیم و پروتئینهای اسرارآمیز و ناشناختهای هستند که فکر میکنم میتوانند بینشهای عظیمی را درزمینهی زیستشناسی ارائه دهند.
پژوهشگران متا پیشبینیهای خود را با استفاده از مدل زبانی بزرگ تولید کردند. مدل زبانی بزرگ نوعی هوش مصنوعی است که اساس ابزارهایی است که میتوانند از روی چند حرف یا کلمه، متن را پیشبینی کنند.
معمولاً مدلهای زبانی با استفاده از حجم بزرگی از متن آموزش داده میشوند. ریوس و همکارانش برای اینکه مدلهای مذکور را روی پروتئینها بهکار ببرند، توالیهایی از پروتئینهای شناختهشده را بهعنوان ورودی وارد مدل کردند. پروتئینها را میتوان با زنجیرههایی از ۲۰ اسیدآمینه مختلف نشان داد که هر اسیدآمینه با یک حرف نشان داده میشود. سپس، شبکه یاد گرفت پروتئینهایی که بخشی از اسیدآمینههای آنها پنهان بود، بهطورخودکار تکمیل کند.
مرحله دوم با الهام از ساختارهای پروتئینی آلفا فولد دیپمایند چنین بینشی را با اطلاعاتی درباره روابط میان ساختارهای پروتئینی و توالیهای شناختهشده ترکیب میکند تا براساس توالیهای پروتئینی ساختارهای آنها را پیش بینی کند.
شبکه متا که ایاسام فولد (ESMFold) نامیده میشود، بهاندازهی آلفافولد دقیق نیست؛ اما در پیشبینی ساختارها ۶۰ برابر سریعتر است که بهگفته ریوس، بدانمعنا است که میتوانیم از این رویهی پیشبینی ساختار در پایگاههای داده بسیار بزرگتر استفاده کنیم.
پژوهشگران تصمیم گرفتند تا مدل خود را روی پایگاه دادهی بزرگی از DNA متاژنومیک آزمایش کنند که از منابع محیطی ازجمله خاک، آب دریا، روده انسان، پوست و دیگر زیستگاههای میکروبی جمعآوری شده است. بیشتر ورودیهای DNA از موجوداتی میآیند که در محیط آزمایشگاه هرگز کشت نشده و برای علم ناشناختهاند.
درمجموع، تیم متا ساختار بیش از ۶۱۷ میلیون پروتئین را پیشبینی کرد. این تلاش دو هفته طول کشید (هر پیشبینی واحد آلفافولد چند دقیقه زمان میبرد). پیشبینیها و کد استفادهشده برای ایجاد مدل بهرایگان دردسترس همه قرار دارد.
طبق محاسبات مدل، بیش از یکسوم این ۶۱۷ میلیون پیشبینی کیفیت چشمگیری داشتند؛ بهطوریکه پژوهشگران میتوانند مطمئن باشند که شکل کلی پروتئین درست است و در مواردی میتوانند جزئیات دقیقتری را در سطح اتمی نیز تشخیص دهند.
میلیونها مورد از این ساختارها کاملاً جدید هستند و شبیه ساختارهای موجود در پایگاه داده ساختارهای پروتئینی است که بهطورتجربی تعیین شده یا در پایگاه آلفافولد از پیشبینیهای موجودات شناختهشده نیستند.
مارتین اشتاینگر، زیستشناس محاسباتی در دانشگاه ملی سئول، میگوید بخش نسبتاً زیادی از پایگاه داده آلفافولد از ساختارهایی تشکیل شده است که تقریباً شبیه هم هستند و پایگاه داده متاژنومیک باید بخش بزرگی از جهان پروتئینی ناشناخته را پوشش دهد. بهگفته او، اکنون فرصت بزرگی برای کشف ناشناختهها است.
سرگئی اووچینیکوف، زیستشناس تکاملی در دانشگاه کمبریج ماساچوست، درباره صدها میلیون پیشبینی که ESMFold با اطمینان اندکی تولید کرده، کنجکاو است. برخی ممکن است حداقل جداگانه فاقد ساختار تعریفشده باشند؛ درحالیکه دیگر ممکن است DNA غیرکدکننده را بهعنوان توالی کدکننده پروتئین اشتباه گرفته باشند.
بورکهارد روست، زیستشناس محاسباتی در دانشگاه فنی مونیخ در آلمان، تحتتأثیر ترکیب سرعت و دقت مدل متا قرار گرفته است. او این سؤال را مطرح میکند که پیشبینیهای مدل جدید درمقایسهبا پیشبینیهای دقیق آلفافولد چه مزیتی دارد.
روشهای پیشبینی مبتنیبر مدل زبانی برای تعیین سریع اینکه جهشها چگونه ساختار پروتئین را تغییر میدهند، بهتر عمل میکنند؛ اما آلفافولد توانایی آن را ندارد. روست میگوید: «شاهد این خواهیم بود که پیشبینیها سادهتر و ارزانتر میشوند و این دریچهای رو به اکتشافات جدید باز خواهد کرد.»
بهگفته یکی از نمایندگان شرکت، دیپمایند درحالحاضر قصد ندارد پیشبینیهای متاژنومیک را در پایگاه داده خود بگنجاند؛ اما اشتاینگر و همکارانش از نسخهای از آلفافولد برای پیشبینی ساختار حدود ۳۰ میلیون پروتئین متاژنومیک استفاده کردهاند. آنها امیدوارند با جستوجوی اشکال جدیدی از آنزیمهای کپیکننده ژنوم، RNA ویروسهای جدیدی را پیدا کنند. اشتاینگر کشف ماده تاریک زیستشناسی را بهعنوان گام آشکار بعدی چنین ابزارهایی میداند. او میگوید: «فکر میکنم بهزودی شاهد انفجاری در تجزیهوتحلیل این ساختارهای متاژنومیک خواهیم بود.»