چرا هوش مصنوعی تشنه انرژی است؟
گوگل در پژوهشی ناامیدکننده به خطرهای هوش مصنوعی پردازش زبان اشاره کرد. این نوع هوش مصنوعی در جستوجوی گوگل و دیگر محصولات تحلیل متنی بهکار میرود. یکی از خطرهای این نوع هوش مصنوعی، اثر کربنی فراوان آن است.
براساس تخمینها، آموزش مدل هوش مصنوعی بهاندازهی تولید خودرو و رانندگی با خودروها در طول عمر آنها به انرژی نیاز دارد. کیت سائنکو، پژوهشگر و نویسندهی اصلی این مقاله، مدلهای هوش مصنوعی بررسی میکند و آن را توسعه میدهد و با انرژی و هزینههای مالی پژوهشهای AI آشنا است. چرا مدلهای هوش مصنوعی تا این اندازه تشنهی انرژی هستند و چه تفاوتی با رایانش دیتاسنتری یا مرکزدادهای سنتی دارند؟
فرایند آموزش هوش مصنوعی غیربهینه است
عملیات سنتی پردازش داده در دیتاسنترها پخش ویدئو و ایمیل و رسانههای اجتماعی را شامل میشود. هوش مصنوعی ازنظر محاسباتی متمرکز است؛ زیرا به خواندن مقادیر زیادی داده و یادگیری و درک آنها نیاز دارد. این نوع فرایند آموزشی درمقایسهبا یادگیری انسانی غیربهینه است. AI مدرن از شبکههای عصبی استفاده میکند که محاسبات ریاضی را به تقلید از مغز انسان انجام میدهند. میزان قدرت اتصال هر نورون به همسایهی آن یکی از پارامترهای شبکه به نام وزن است. شبکه برای یادگیری چگونگی درک زبان با وزنهای تصادفی آغاز میشود و این وزنها را تا زمانی تطبیق میدهد که خروجی منطبق با پاسخی صحیح باشد.
یکی از روشهای متداول آموزش شبکهی زبانی تغذیهی شبکه با مقادیر زیادی متن از وبسایتهایی مثل ویکیپدیا و اخباری دارای کلمات نشانهگذاری شده است. سپس شبکه کلمات جداشده را حدس میزند. برای مثال، جملهی «سگ من بامزه است» را با کلمهی «بامزه» در نظر بگیرید. در ابتدا، مدل کلمات را بهاشتباه تشخیص میدهد؛ اما با تطبیق بیشتر، وزنهای اتصالی تغییر میکنند و الگوهای دادهای را کشف میکنند؛ درنهایت، شبکه به دقت چشمگیری میرسد.
یکی از مدلهای جدید به نام BERT (نمایش رمزنگار دوطرفه از مبدلها) از ۳/۳ میلیارد کلمهی کتابهای انگلیسی و مقالههای ویکیپدیا استفاده میکند. علاوهبراین، BERT در طول آموزش مجموعههای دادهای را یک جا چهل مرتبه میخواند. درمقابل، کودک بهطورمیانگین میتواند تا پنجسالگی ۴۵ میلیون کلمه را بشنود که سههزار مرتبه کمتر از دادههای BERT است.
جستوجوی ساختار مناسب
فرایند آموزش که معمولا در طول توسعه چند بار تکرار میشد، مدلهای زبانی را پرهزینه میسازد. دلیل این مسئله جستوجوی بهترین ساختار برای شبکه ازجمله تعداد نورونها، تعداد اتصال بین نورونها، سرعت تغییر پارامترها در طول یادگیری و... است. هرچه ترکیبهای آزمایشی بیشتر باشند، بخت شبکه برای رسیدن به دقت زیاد افزایش مییابد. درمقابل مغز انسان به یافتن ساختار بهینه نیازی ندارد و از ساختار پیشساختهای برخوردار است که در فرایند تکامل شکل گرفته است.
با افزایش شرکتها و مؤسسههای پژوهشی در حوزهی هوش مصنوعی، فشار برای بهبود جدیدترین فناوریها افزایش یافت. حتی دستیابی به پیشرفت ۱ درصدی در دقت وظایف دشواری مثل ترجمهی ماشینی هم معنادار است و میتواند بهمعنی تولید محصولات بهتر باشد. باوجوداین برای رسیدن به این بهبود ۱ درصدی، باید مدل را هزاران مرتبه و هر بار با ساختار متفاوتی آموزش داد تا بهترین نتیجه حاصل شود.
پژوهشگران دانشگاه آمهرست ماساچوست با اندازهگیری مصرف برق سختافزارهای متداول بهکاررفته در فرایند آموزش، هزینهی انرژی توسعهی مدلهای زبانی AI را تخمین زدند. براساس نتایج، مصرف انرژی BERT معادل اثر کربنی حاصل از پرواز بین نیویورک و سانفرانسیسکو است. بااینحال، جستوجو در ساختارهای مختلف و آموزش چندبارهی الگوریتم براساس دادهها با تعداد متغیر نورونها و اتصالها و پارامترهای دیگر، هزینهی انرژی همارز با پرواز ۳۱۵ مسافر یا هواپیمای ۷۴۷ کامل است.
بزرگتر و داغتر
مدلهای هوش مصنوعی هر سال بزرگتر میشوند. GPT-2، مدل زبانی جدید مشابه BERT، در شبکهی خود تقریبا ۱/۵ میلیارد و GPT-3 با دقتی بیشتر ۱۷۵ میلیارد وزن دارد. بهطورکلی، شبکههای بزرگتر دقت بیشتر دارند؛ حتی اگر تنها بخش کوچکی از شبکهی مفید و کاربردی باشد. فرایند مشابهی در مغز کودکان رخ میدهد؛ در ابتدا اتصالهای عصبی اضافه میشوند و سپس کاهش مییابند؛ اما بهطورکلی مغز بیولوژیکی بهینهتر از مغزهای کامپیوتری است.
مدلهای هوش مصنوعی بر اساس سختافزار ویژهای مثل واحدهای پردازندهی گرافیکی آموزش میبینند که انرژی بیشتری درمقایسهبا CPUهای قدیمی مصرف میکند. معمولا در لپتاپهای بازی از این واحدهای پردازنده برای تولید گرافیک پیشرفته برای بازیهایی مثل ماینکرفت RTX استفاده میشود. این لپتاپها معمولا داغتر از لپتاپهای معمولی هستند.
بهطورکلی، توسعهی مدلهای پیشرفتهی هوش مصنوعی نشر کربنی را افزایش میدهد. تا زمانیکه از منابع ۱۰۰ درصد تجدیدپذیر استفاده نکنیم، پیشرفت هوش مصنوعی در تضاد با کاهش گازهای گلخانهای و کاهش سرعت تغییرات اقلیمی قرار میگیرد. هزینهی نهایی توسعه هم بسیار گران است و تنها تعداد اندکی از آزمایشگاهها از عهدهی آن برمیآیند.
کار بیشتر با انرژی کمتر
کار بیشتر و انرژی کمتر دقیقا چه مفهومی برای پژوهشهای هوش مصنوعی دارد؟ هزینهی آموزش با ابداع روشهای بهینه کاهش خواهد یافت. بهطورمشابه طبق پیشبینی سالهای گذشته، قرار بود مصرف انرژی دیتاسنترها رو به انفجار باشد؛ اما این اتفاق بهدلیل پیشرفت در بازدهی دیتاسنترها و فناوریهای سرمایش و سختافزاری بهینه رخ نداد.
همچنین، مبادلهای بین هزینهی آموزش مدلها و هزینهی استفاده از آنها وجود دارد؛ درنتیجه مصرف بیشتر انرژی در زمان آموزش با تولید مدل کوچکتری همراه است که استفاده از آن میتواند ارزانتر تمام شود. ازآنجاکه از یک مدل چند بار استفاده میشود، انرژی بیشتری ذخیره خواهد شد.
سائنکو در پژوهش آزمایشگاهی خود، روشهایی برای کوچککردن مدلهای AI ازطریق اشتراکگذاری وزنها یا استفاده از وزنهای یکسان در بخشهای مختلف شبکه جستوجو کرد. به این شبکهها شیپشیفتر یا تبدیلشونده گفته میشود؛ زیرا مجموعهی کوچکی از وزنها را میتوان برای شبکههای بزرگتر با هر شکل و ساختاری تنظیم کرد. پژوهشگران دیگر هم نشان دادهاند اشتراکگذاری وزن عملکرد بهتری در زمان یادگیری یکسان دارد.
جامعهی AI با نگاهی به آینده باید برای توسعهی طرحهای آموزشی بهینه تلاش کند؛ درغیراینصورت، تعداد اندکی از توسعهدهندگان میتوانند دستورالعمل دلخواه خود را برای توسعهی مدلها یا نوع دادههای به کاررفته برای آموزش توسعه دهند.
مقالهی اصلی در The conversation منتشر شده است.