اینتل معماری تراشه‌های مجتمع گرافیکی نسل ۱۱ خود را رونمایی کرد

یک‌شنبه ۴ فروردین ۱۳۹۸ - ۰۶:۳۵

مطالعه 7 دقیقه

اینتل در وب‌سایت خود از جزییات معماری پردازنده‌‌های گرافیکی مجتمع Gen11 که قرار است در آینده‌ی نزدیک همراه‌با پردازنده‌های ۱۰ نانومتری Ice Lake ارائه شود، رونمایی کرد.

تبلیغات

شرکت اینتل به یک‌باره و بی هیچ مراسم و تشریفاتی، در وب‌سایت خود از ریز معماری پردازنده‌های گرافیکی مجتمع نسل ۱۱ (Gen11) رونمایی کرد. در اسناد ارائه‌شده توسط اینتل، جزئیات درخورتوجهی در مورد تراشه‌ی گرافیکی جدید این شرکت که همراه‌با پردازنده‌های ۱۰ نانومتری Ice Lake در آینده‌ی نزدیک عرضه خواهند شد، ارائه شده است.

مقاله‌های مرتبط:

رمزگشایی از داستان دنباله‌دار پردازنده‌های Lake اینتل

عزم جزم اینتل برای ورود به بازار کارت گرافیک

اینتل پردازنده‌ی گرافیکی نسل ۱۱ جدید خود را در مراسم Architecture Day معرفی کرد و تصریح کرد که تیم مهندسی پردازنده‌ی گرافیکی نسل ۱۱ به‌سختی در حال کار روی این تراشه‌هاست تا سطح عملکردی چشمگیر نسبت به تراشه‌های گرافیکی نسل‌های قبلی این شرکت ایجاد کند‌. هدف از ساخت چنین تراشه‌ای رسیدن به قدرت محاسباتی یک ترافلاپس در محاسبات اعشاری ۳۲ بیتی و ۲ ترافلاپس در پردازش مشابه ۱۶ بیتی همراه‌با توان مصرفی پایین‌تر در تراشه‌های گرافیکی مجتمع اینتل است. اخیرا شواهدی در مورد سطح عملکرد درخورتوجه این تراشه در محیط‌های گرافیکی واقعی روی شبکه‌ی اینترنت منتشر شده است.

با درنظرگرفتن اطلاعات و ارقام ارائه‌شده توسط شرکت اینتل در این اسناد، می‌توان به‌طور مستدل عملکرد خام این تراشه‌های مجتمع گرافیکی را در محدوده‌ی هسته‌های Radeon Vega 8 دانست که همراه‌با پردازنده‌ی Ryzen 3 2200G عرضه می‌شود. این سطح عملکرد مترقی، حاکی از بهبود اساسی در موتورهای گرافیکی پیش‌فرضی است که اینتل همراه‌با اغلب پردازنده‌های جریان اصلی محصولات خود عرضه می‌کند؛ چنین پردازنده‌ی گرافیکی یکپارچه‌ای می‌تواند زنگ خطری برای محصولات گرافیکی رده پایین انویدیا و AMD به حساب آید.

اسناد ارائه‌شده توسط اینتل حاکی از آن است که این تراشه‌های گرافیکی بر پایه‌ی فناوری ساخت ۱۰ نانومتری با ترانزیستورهای نسل سوم FinFET تولید شده است. همان‌طور که انتظار می‌رفت، این تراشه‌ها از تمامی APIهای مهم پشتیبانی می‌کند. اینتل پشتیبانی از ۴ حافظه‌ی ۳۲ بیتی LPDDR4/DDR4 را به این پردازنده‌ها اضافه کرده که پیشرفت چشمگیری نسبت به پشتیبانی تراشه‌های گرافیکی نسل ۹ از دو حافظه‌ی ۶۴ بیتی LPDDR4/DDR4 به حساب می‌آید.در تراشه‌های گرافیکی نسل ۹ اینتل از چیدمانی ماژولار شامل ۳ برش‌ فرعی (Sub-Slice) که هر یک میزبان ۸ واحد اجرایی (EU) است، استفاده شده است. شرکت اینتل ‏Intel این بار در طراحی نسل ۱۱ این تراشه‌های گرافیکی تا ۸ برش فرعی ایجاد کرده که در اکثر نسخه‌های GT2 در مجموع دربرگیرنده‌ی ۶۴ واحد اجرایی یا EU است؛ اما ممکن است در طراحی برخی نسخه‌های تراشه این میزان تعدیل شود.در چنین حالتی قابلیت محاسباتی تراشه‌ی جدید تا ۲.۶۷ برابر تراشه‌های گرافیکی نسل ۹ افزایش می‌یابد. تراشه‌ی جدید همچنین قادر به انتقال ۲ پیکسل در هر کلاک است.

شکل زیر نشان‌دهنده‌ی دیاگرام ابتدائی بلوک‌های یک پردازنده‌ی نسل بعدی Ice Lake است؛ همان‌طور که دیده می‌شود قسمت‌های مختلف SOC (سیستم روی یک تراشه) شامل هسته‌های پردازنده، هسته‌های پردازنده‌ی گرافیکی، LLC (آخرین سطح حافظه‌ی کش) و عوامل کارگزار سیستم (شامل PCIe، کنترلر حافظه و کنترلر نمایشگر) ازطریق یک حلقه‌ی اتصال‌دهنده‌ی داخلی به یکدیگر وصل شده و با هم در ارتباط هستند.

چنین چیدمانی گویای آن است که اینتل از یک اتصال داخلی Ring Bus برای اتصال ساختارهای مختلف در تراشه استفاده می‌کند. مسئله‌ی قابل‌توجه در این طراحی این است که آخرین سطحِ حافظه‌ی کش (LLC) در میان هسته‌های پردازنده و تراشه‌ی گرافیکی به اشتراک گذارده‌ شده که باعث حذف فرایند نقل و انتقال داده‌ها به واحدهای متناظر می‌شود. در طراحی این SOC از دامنه‌های کلاک متعددی استفاده شده که به هر هسته‌ی پردازنده‌ی اصلی، تراشه‌ی گرافیکی مجتمع و حلقه‌ی اتصال داخلی، دامنه‌ی کلاک معینی قابل تخصیص است.

تراشه‌ی مجتمع گرافیکی نسل ۱۱ از رندرینگ Tile و همچنین حالت رندرینگ فوری پشتیبانی می‌کند؛ در این حالت در خلال برخی بارهای کاری رندرینگ، از میزان تقاضای حافظه کاسته می‌شود.

در شکل زیر، سلسله‌مراتب حافظه در یک تراشه‌ی Ice Lake و حداکثر پهنای باند متناظر میان اجزا نشان داده شده است. حرکت اینتل به سمت پشتیبانی از حافظه‌ی LPDDR4 متضمن افزایش چشمگیر پهنای باند و در عین حال کاهش توان مصرفی است. نوآوری راستین در این تراشه در طراحی حافظه‌ی اشتراکی نهفته است که تقاضا برای کپی‌کردن داده‌ها را ازطریق بافرها کاهش می‌دهد.

GTI (که مخفف Graphics Technology Interface یا رابط فناوری گرافیکی است) پردازنده‌ی گرافیکی را به بخش‌های دیگر تراشه‌ی SOC شامل حافظه‌ی LLC و DRAM متصل کرده است. شرکت اینتل در این نسخه سطح عملکرد را از ۳۲ بایت در هر کلاک به ۶۴ بایت در هر کلاک در عملیات نوشتن ارتقا داده، و صف‌بندی‌های داخلی را با هدف کاهش تأخیر و بهبود پهنای باند بازآرایی و اصلاح کرده است.

در این شکل دیده می‌‌شود که پردازنده‌ی گرافیکی (GPU) قادر به خواندن و نوشتن در حلقه‌ی اتصال داخلی با سرعت ۶۴ بایت به ازای هر کلاک است، درحالی‌که پردازنده‌ی اصلی (CPU) فقط می‌تواند ۳۲ بایت به ازای هر کلاک در این رینگ بنویسد یا از آن بخواند؛ بنابراین پردازنده‌ی گرافیکی مسیر (Pathway) سریع‌تری به آخرین سطح حافظه‌ی کش اشتراکی (L3) در دسترس خود دارد. علاوه‌بر این، پردازنده‌ی گرافیکی ۳ مگابایت کش سطح ۳ داخلی اختصاصی در اختیار دارد که به‌صورت واسطه‌ای میان برش‌های فرعی و GTI عمل می‌کند.

در تصویر زیر، نمایی از برش‌های تراشه‌ی گرافیکی نسل ۱۱ ارائه شده است. هر برش‌ تراشه میزبان یک واحد 3D Fixed Function Geometry، هشت برش فرعی شامل واحدهای EU و یک برش مشترک (Common Slice) است که بلوک‌های عامل ثابت را در بر داشته و اقدام به نوشتن در برش کش L3 می‌کند. اینتل زیرسیستم حافظه را با ۴ برابر کردن حافظه‌ی کش سطح ۳ اختصاصی به میزان ۳ مگابایت بهبود بخشیده و برای بهبود و عدم تداخل در توازیِ کاری (Parallelism) حافظه‌ی محلی اشتراکی (SLM) مجزایی برای هر برش فرعی در نظر گرفته است. به‌علاوه طراحی جدید، دربرگیرنده‌ی الگوریتم‌های فشرده‌سازی حافظه است.

سایر بخش‌های ارتقاءیافته در معماری پردازنده‌ی گرافیکی جدید شامل یک موتور HEVC Quick Sync Video کاهش‌دهنده‌ی ۳۰ درصدی بیت ریت در مقایسه با نسل ۹ (در کیفیت تصویر مشابه یا بهتر)، پشتیبانی از استریم ویدئوی 4K و 8K چندگانه با توان مصرفی کمتر و نیز پشتیبانی از فناوری Adaptive Sync است. عمق بیت در رمزگشایی ویدئویی VP9 از ۸ به ۱۰ بیت افزایش یافته تا این بار از ویدئوهای HDR نیز پشتیبانی به عمل آید.

در بررسی عمیق‌تر تراشه‌ی گرافیکی نسل جدید می‌توان دید که هر برش میزبان ۸ برش فرعی است که هر کدام ۸ واحد اجرایی یا EU را در بر دارد. هر زیربرش‌ دربرگیرنده‌ی یک واحد Thread Dispatcher محلی و کش‌های دستورالعمل مربوط‌به خود برای تغذیه‌ی آن است. یک حافظه‌ی محلی اشتراکی، واحد نمونه‌برداری بافت سه‌بعدی و واحد دیتاپورت هر یک از این برش‌های فرعی را تکمیل می‌کند.

با نگاهی دقیق‌تر به طراحی حافظه‌ی محلی اشتراکی (SLM) که ۸ واحد اجرایی را در هر برش فرعی تغذیه می‌کند، مشخص می‌شود که اینتل SLM را به این دلیل را در برش فرعی وارد کرده است که رقابت را در دیتاپورت به هنگام تلاش واحدهای EU برای دسترسی همزمان به کش سطح ۳ کاهش دهد. نزدیکی بیشتر SLM به واحدهای EU همچنین به کاهش تأخیر و بازدهی بوست‌ها کمک می‌کند.

با ورود به درون هر یک از واحدهای اجرایی EU چند رشته‌ای (Multi-threaded)، می‌توان یک جفت واحد محاسبه‌ی اعشاری SIMD (یا ALU-ها) در هر کدام مشاهده کرد؛ اما در عمل هر یک از این واحدها هم از عملیات اعشاری و هم از عملیات صحیح پشتیبانی می‌کند. اینتل می‌گوید این واحدهای ALU قادر به انجام چهار عملیات اعشاری یا صحیح ۳۲ بیتی یا ۸ عملیات اعشاری ۱۶ بیتی است. این مقدار مساوی است با ۱۶ عملیات FP32 به ازای هر کلاک یا ۳۲ عملیات FP16 در هر کلاک.