مدیر سابق هوش مصنوعی تسلا GPT-2 را تنها در ۲۴ ساعت و با هزینه ۶۷۲ دلار بازسازی کرد

یک‌شنبه ۲۴ تیر ۱۴۰۳ - ۱۰:۴۷
مطالعه 3 دقیقه
نمادی از هوش مصنوعی شبیه سر انسان درحال صحبت و کادرهای متنی مقابل آن
هزینه‌ و زمان مورد نیاز برای آموزش مدل‌های هوش مصنوعی در سطح GPT-2 نسبت‌ به چند سال قبل به‌طور چشمگیری کاهش یافته است.
تبلیغات

مدل GPT-2 شرکت OpenAI در سال ۲۰۱۹، معرفی شد و طبق گزارش‌ها، هزینه‌ی هر ساعت آموزش آن ۲۵۶ دلار بود. اکنون با گذشت پنج سال به GPT-4 رسیده‌ایم و پیشرفت‌های سخت‌افزاری، نرم‌افزاری و داده‌ای باعث شده است آموزش مدل زبانی بزرگ (LLM)، زمان و هزینه‌ی کمتری ببرد و به‌عنوان مثال آندری کارپاتی، مدیر سابق هوش مصنوعی تسلا موفق شد مدل GPT-2 را فقط در ۲۴ ساعت با هزینه‌ی ۶۷۲ دلار بازسازی کند.

مهم‌ترین عامل کاهش هزینه‌ی آموزش مدل‌های هوش مصنوعی این است که فقط از هشت تراشه‌ی انویدیا H100 استفاده می‌شود که هزینه را به ۲۸ دلار در ساعت کاهش می‌دهد؛ بدین‌ترتیب هزینه‌ی مذکور تقریباً ۹۰ درصد نسبت‌ به پنج سال قبل کمتر خواهد بود.

انویدیا تراشه‌ی H100 را در سال ۲۰۲۳ معرفی کرد، بنابراین OpenAI هنگام آموزش GPT-2 احتمالاً از سخت‌افزار بسیار ضعیف‌تری استفاده کرده است. به‌هرحال، تعداد ساعات مورد نیاز برای آموزش GPT-2 را نمی‌دانیم و درمقام‌مقایسه، هزینه‌ی آموزش GPT-4 بیش‌ از ۱۰۰ میلیون دلار ارزیابی می‌شود.

مورد دیگری که باعث شد بازسازی GPT-2 بسیار سریع‌تر باشد، پیاده‌سازی مستقیم آموزش GPT است. کارپاتی می‌گوید: «ازآنجاکه llm.c پیاده‌سازی مستقیم آموزش GPT با هسته‌های CUDA محسوب می‌شود، نیازمندی‌های آن به حداقل می‌رسد و دیگر به Conda، مفسرهای زبان برنامه‌نویسی پایتون، نصب کتابخانه‌ها و غیره نیاز ندارد. شما یک نود ابری با پردازنده‌ی گرافیکی راه‌اندازی می‌کنید، در صورت تمایل انویدیا cuDNN ،NCCL یا MPI را نصب می‌کنید، داده‌های باینری را دانلود و در نهایت کامپایل و اجرا می‌کنید و در عرض چند دقیقه کارتان شروع می‌شود. پس‌ از ۲۴ ساعت می‌توانید از مدل خود بهره ببرید.»

نماد شرکت OpenAI درکنار نام GPT-2 با زمینه سایه دار صورتی و آبی
Medium

پروژه‌ی llm.c به‌عنوان بخشی از یک ویدیو آموزشی آغاز شد، اما در نهایت به پروژه‌ای تبدیل شد که کارپاتی پس‌ از درگیر شدن با برخی مسائل PyTorch، آن را از ابتدا ساخت.

پیشرفت‌های سخت‌افزاری، نرم‌افزاری و داده‌های آموزشی به معنای ارزان‌تر شدن آموزش مدل‌های پیشرو هوش مصنوعی نیست. داریو آمودئی، مدیرعامل Anthropic می‌گوید مدل‌های هوش مصنوعی که امروزه آموزش داده می‌شوند، از قبل یک میلیارد دلار هزینه دارند و هزینه‌ی مدل‌های گران‌تر تا سال ۲۰۲۵ به ۱۰۰ میلیارد دلار می‌رسد.

دلیل بالابودن هزینه‌ی آموزش مدل‌های پیشرو هوش مصنوعی این است که اگرچه سخت‌افزار قدرتمندتر می‌شود، قیمت آن هم افزایش می‌یابد. برای مثال، هر تراشه‌ی انویدیا H100 درحال‌حاضر ۴۰ هزار دلار قیمت دارد؛ البته انتظار می‌رود نسل بعدی تراشه‌های هوش مصنوعی Blackwell حدود ۷۰ هزار دلار قیمت داشته باشند و هزینه‌ی رک سرور کامل به سه میلیون دلار یا بالاتر برسد، مگر اینکه به پیشرفت‌های سخت‌افزاری‌ای مانند تراشه‌ی هوش مصنوعی Sohu دست یابیم.

علاوه بر مسائل مربوط به هزینه، نیاز فزاینده‌ی مراکز داده‌ی هوش مصنوعی به برق، نگرانی بسیاری از کارشناسان را برانگیخته است. فقط یک تراشه‌ی H100 که با میانگین بهره‌وری سالانه‌ی ۶۱ درصد کار می‌کند، هر سال ۳٫۷ مگاوات ساعت برق مصرف می‌کند.

با در نظر گرفتن فروش بیش‌ از ۳٫۸ میلیون پردازنده‌ی گرافیکی هوش مصنوعی ساخت انویدیا و سایر شرکت‌های فعال در سال گذشته، این عدد به ۱۴٫۳ تراوات‌ ساعت برق در سال می‌رسد که برای تأمین انرژی ۱٫۳ میلیون خانوار آمریکایی کافی است.

مدیرعامل دیپ‌مایند گوگل می‌گوید مدل‌های هوش مصنوعی کنونی همچنان در سطح هوش یک گربه هستند؛ بنابراین، همچنان باید میلیاردها دلار دیگر در مدل‌های آینده سرمایه‌گذاری کنیم؛ اما اگر می‌خواهید مدل هوش مصنوعی خود را با استفاده از مدل‌های قدیمی‌تر بسازید نیازی به چند میلیون‌ دلار سرمایه نخواهید داشت و اگر دانش کافی برای ساخت مدل داشته باشید، این کار فقط چند صد دلار نیاز دارد.

مقاله رو دوست داشتی؟
نظرت چیه؟
داغ‌ترین مطالب روز
تبلیغات

نظرات