بررسی عمیق نسل جدید APUهای AMD و تکنولوژیهای جدید آن
AMD یکی از دو تولیدکنندهی بزرگ پردازنده است که از دیرباز رقیب جدی اینتل بوده اما در سالهای اخیر، پس از رونمایی تراشههای سندی بریج اینتل، کمتر شاهد قدرتنمایی ایامدی در محصولات رده اول بودیم. در نقشه راه ایامدی، پردازندههای کممصرف و پرمصرف، به موازات هم پیش میروند. امسال در بخش پردازندههای پرمصرف، با خانوادهی جدید Kaveri روبرو میشویم که بعد از سه نسل قبلی یعنی Llano، Trinity و اخیراً Richland، وارد بازار میشوند و در ادامهی مطلب قصد بررسی این نسل تازهوارد را داریم.
سال 2014 فرارسیده و نوبت رونمایی از مدلهای جدید APUهای ایامدی است. منظور از APU ترکیب پردازندهی اصلی و کارت گرافیک است که در کامپیوترهای امروزی متداول شده و بازار هم به خوبی از آن استقبال کرده است. AMD در نسل جدید، تنها به ترکیب پردازندهی اصلی و پردازندهی گرافیکی قویتر بسنده نکرده؛ بلکه قابلیتهای ویژهای برای استفادهی بهینه از دو پردازنده AMD در نظر گرفته که در ادامه به آن میپردازیم.
معرفی اجمالی کاوری
در کاوری از نسل سوم معماری بولدوزر استفاده شده و البته لیتوگرافی نیز ظریفتر از نسل قبل است. در واقع به جای استفاده از لیتوگرافی 32 نانومتری High-K Metal Gate SOI کمپانی گلوبال فاوندریز، از لیتوگرافی 23 نانومتری SHP یا Super High Performance استفاده میشود. با تغییر روش تولید، عملکرد تراشه هم تغییر میکند. به این صورت که در نسل قبلی، تراشه برای کارکرد در فرکانسهای بالا بهینه میشد و حالا تراشه برای تراکم بیشتر ترانزیستورها بهینه است و از نظر فرکانس کاری، کمی ضعیفتر خواهد بود. ایامدی این ساختار را برای APU، بهینهتر عنوان کرده؛ چرا که پردازندهی اصلی به فرکانس کاری بالا نیاز دارد و پردازندهی گرافیکی به تراکم بالای ترانزیستورها و مدارات داخلی آن محتاج است.
بنابراین نتیجه میگیریم که کاوریها نسبت به ترینیتی و ریچلند، فرکانس کاری پایینتری دارند.
کاوری از نظر پردازندهی اصلی از هستههایی با معماری Steamroller استفاده میکند که نسبت به هستههای Piledriver در دو نسل قبلی، کممصرفتر هستند. با توجه به کاهش فرکانس کاری، ایامدی تعداد دستورات اجرایی در یک سیکل کلاک یا به اختصار IPC را افزایش داده است.
در پردازندهی گرافیکی از اثر مثبت افزایش تراکم ترانزیستورها به نحو احسن استفاده شده تا پردازندهی گرافیکی پیچیدهتر و قدرتمندتر از دو نسل قبلی باشد. ایامدی معتقد است که حالا توازن بهتری بین پردازندهی اصلی و گرافیکی برقرار شده؛ ولیکن بخش پردازندهی اصلی برای رقابت با تراشههای خوب اینتل ضعیف به نظر میرسد؛ چرا که دو نسل قبلی هم در برابر اینتل تا حدی ناتوان ظاهر شده بودند. در واقع ایامدی بیش از هر چیز به تغییر جدی معماری پردازندهی اصلی نیاز دارد.
پردازندهی گرافیکی نسل جدید از خانوادهی Hawaii است و به عبارت دیگر معماری GCN دارد. این پردازندهی گرافیکی از HSA هم پشتیبانی میکند. به کمک HSA ارتباط بین پردازندهی اصلی و گرافیکی ساده میشود و نیاز به کپی کردن تکراری حجم انبوهی از داده نیست؛ لذا کارایی تراشه در این حالت، بهینهتر از روش سنتی است. برای آشنایی با HSA یا معماری ناهمگن سیستم، به مقالهی "معماری ناهمگن (HSA) چیست و چطور AMD با بهرهگیری از آن به پیشرفت صنعت پردازش کمک خواهد کرد؟" در زومیت سری بزنید.
یکی از مزایای دیگر این معماری، تشابه پردازندهی گرافیکی کاوری با کارت گرافیکهای جدید ایامدی است؛ چرا که از این به بعد هر نرمافزار و بازی که برای کارت گرافیکهای جدید، یعنی سری R200 بهینه شود، برای کاوریها هم بهینه خواهد بود.
متأسفانه باز هم ایامدی ضعف پردازندهی اصلی را با دو موضوع توجیه میکند؛ اولین نکته، قدرتمندبودن پردازندهی گرافیکی است که بازیخورها را به سمت تراشههای ارزان و کارای این سازنده متمایل میکند. دومین موضوع، ضعف در پشتیبانی از قابلیتی مثل HSA است که فعلاً به عنوان یک واقعیت وجود دارد و نمیتوان آن را انکار کرد. با وجود اینکه پردازندهی اصلی ضعیف است، باز هم میتوان با پشتیبانی خوب نرمافزاری، قابلیتهای HSA را به رخ کشید. اگر ایامدی ابزارهایی برای زبانهای متداول مثل OpenCL، جاوا، C++ و غیره معرفی کرده و کتابخانههایی برای واسطهای برنامهنویسی عرضه کند، استفاده از HSA ممکن میشود و میتوان با کدنویسی کمتر، به نتیجهی نهایی رسید.
کاوری اولین پردازندهی اصلی، APU و همچنین اولین سیستم-روی-یک-چیپی است که از OpenCL 2.0 پشتیبانی میکند. منظور از OpenCL زبان برنامهنویسی محاسباتی متنباز است.
یکی از تفاوتهای کاوری با نسل قبلی خود، ریچلند، در استفاده از پردازشگر دیجیتالی سیگنال روی قالب APU است. TrueAudio نام این تکنولوژی ویژهی ایامدی است که بار پردازش صدا را از دوش پردازندهی اصلی برمیدارد. به عنوان مثال اگر برای اعمال افکت اکو یا Reverb تا بیش از 3 ثانیه از این DSP سختافزاری استفاده شود، کاهش بار پردازشی پردازندهی اصلی بیشتر از 10 درصد خواهد بود که در بازیها مهم به نظر میرسد. با استفاده از تروآودیو، میتوان پردازش صداهای چندکاناله یا تبدیل صدای چندکاناله به استریو را بدون بار سنگین روی پردازندهی اصلی انجام داد.
در مقالهی "بررسی کامل Radeon 200 یا Hawaii، نسل جدید کارتهای گرافیکهای AMD"، اطلاعات دقیق و جالبی در مورد این تکنولوژی صوتی به دست خواهید آورد.
در کنار تروآودیو دو تکنولوژی ویدیویی UVD و VCE هم ارتقا یافتهاند. UVD یا Unified Video Decoder رمزگشای یکپارچهی ویدیویی است که برای پخش ویدیوهای فشرده شده با کیفیت بالا، کاربرد فراوان دارد و دومین مورد Video Coding Engine است که برای رمزگذاری یا به عبارتی فشرده کردن ویدیو، کاربرد دارد.
مساحت قالب کاوری شبیه ریچلند است؛ 245 میلیمتر مربع در برابر 236 میلیمتر مربع؛ ولیکن در همین مساحت برابر، ترانزیستورها به شدت بیشتر شدهاند. 2.41 در برابر 1.3 میلیارد ترانزیستور، افزایش 85 درصدی دارد. تغییر لیتوگرافی 32 نانومتری به 28 نانومتری خود موجب 26 درصد تراکم بیشتر میشود؛ ولیکن 85 درصد رقم فوقالعاده بالاتری است. متأسفانه ایامدی منظور دقیق خود را عنوان نکرده و ممکن است چیدمان یا شماتیک ترانزیستورها منظور بوده باشد.
صفآرایی کاوریها با مدلهای خوب 45 واتی ویژهی دسکتاپ
در سالهای اخیر اینتل توان مصرفی پردازندههای خود را از 35 الی 45 وات به 10 الی 20 وات کاهش داده که برای اولترابوکها بسیار خوب است؛ چرا که وزن کمتری دارند و باتری سبکتر این دسته از لپتاپها، برای تأمین توان مصرفی یک تراشهی 35 واتی، آن هم برای بیش از 7 ساعت مناسب نیست. اینتل در ادامه با تغییر ولتاژ کاری تراشهها، خانوادهی Atom و Quark را معرفی کرده که توان مصرفی فوقالعاده پایینی دارند.
ایامدی هم از این ایده تبعیت کرده و برخی مدلها را احتمالاً با یک ماژول متشکل از 2 هسته رونمایی کرده و توان مصرفی را به رقم 15 وات تقلیل داده است.
در صف دیگر، محصولات ویژهی وسایل همراه قرار میگیرند که فعلاً رونمایی نشده و برای اواسط سال 2014 در نظر گرفته شدهاند.
در جدول زیر مشخصات تراشههای 45 واتی مبتنی بر نسلهای مختلف هستههای بولدوزر را مشاهده میکنید:
این هم جدول تراشههای 65 واتی:
جالب است که مدل A8-7600 در هر دو جدول فوق دیده میشود! این همان روشی است که از آن صحبت کردیم؛ کاهش ولتاژ کاری، فرکانس حالت پایه و فرکانس حالت توربو موجب شده که یک مدل خاص توان مصرفی 45 وات و 65 وات داشته باشد.
البته توجه داشته باشید که فرکانس پردازندهی گرافیکی در هر دو حالت 720 مگاهرتز است و این یعنی ایامدی قدرت پردازندهی گرافیکی را تغییر نداده است. این مدل برای فصل اول 2014 در نظر گرفته شده است.
آخرین جدول هم مدلهای 95 و 100 واتی سه نسل متوالی APUهای ایامدی را نمایش میدهد:
با نگاهی گذرا به جدول فوق به نکتهای که قبلاً اشاره کردیم، میرسیم. تغییر لیتوگرافی از 32 نانومتر به 28 نانومتر با تراکم بیشتر ترانزیستور و کاهش فرکانس حالت توربو همراه شده در حالی که توان مصرفی اندکی کاهش یافته است.
مادربوردهای مخصوص کاوری هم سوکت FM2 دارند
ایامدی این بار برخلاف معمول روش تغییر ندادن سوکت را ادامه نداده و مشتریان برای استفاده از تراشههای جدید، مجبور به تعویض مادربورد هستند. چیزی که در سه نسل اخیر پردازندههای اینتل شاهد بودیم و تعداد پینها از 1156 در سندیبریج به 1155 در آیویبریج و در نهایت 1150 پین در هسول تغییر کرد.
لذا سوکت FM2+ برای کاوری در نظر گرفته شده که با مادربوردهای FM2 سازگار نیست. در واقع FM2+ تنها دو پین بیشتر از FM2 دارد و نمیتوان تراشههای جدید کاوری را در سوکت قدیمی FM2 قرار داد. قابل ذکر است که FM2+ با معرفی نسل قبلی یعنی ریچلند روانهی بازار شده و در حال حاضر هم موجود است. ممکن است مادربورد به تازگی تولید شده باشد و بایوس جدید روی آن ذخیره شده باشد که در این صورت مشکلی نیست؛ ولی اگر موجودی مغازه به تولید ماههای قبل مربوط باشد، باید بایوس آن را به روز کرد تا از کاوری هم پشتیبانی کند.
توجه کنید که عکس مسألهی فوق یعنی استفاده از تراشههای سری ریچلند و ترینیتی روی مادربوردهایی که سوکت FM2+ دارند، امکانپذیر است.
بهتر است به چیپستهای 4 نسل متوالی APUهای ایامدی نگاهی بیاندازید و ببینید کدام مدل با کدام مادربوردها هماهنگ است.
مشاهده میکنید که کاوری تنها با سه چیپست A55، A78 و A88X سازگار است. البته چیپست A55 با سه سوکت پردازنده عرضه شده که برای کاوری، تنها سوکت FM2+ کاربرد دارد.
مراقب باشید که نام چیپست پل شمالی AMD 780L را با چیپست جدیدتر A78 اشتباه نگیرید؛ چرا که ممکن است در نام مادربوردهای قدیمی عدد 78 هم وجود داشته باشد، حال آنکه ربطی به A78 ندارند و سوکت پردازندهشان AM3 است.
در مورد تفاوت چیپستهایی که در جدول فوق ذکر شده، میتوان به پشتیبانی از PCIe 3.0 با پهنای باند متفاوت اشاره کرد. تعداد پورتهای SATA 3 که سرعت 6 گیگابیت بر ثانیه دارد و همچنین پورتهای USB 3.0 هم متفاوت است. پشتیبانی از RAID هم در این مدلها یکسان نیست.
با کاوری راه پیش روی HSA هموار شده است
ایامدی گراف آماری زیر را برای نمایش عمومیت پیدا کردن APU نمایش داده که نشان میدهد در سال 2013 تنها یکی از 10 سیستم پیسی یا لپتاپ، به پردازندهای فاقد پردازندهی گرافیکی مجهز شده است. توجه کنید که اینتل از کاربرد واژهی APU برای تراشههای مجهز به پردازندهی گرافیکی خود اجتناب میکند و هنوز همان عنوان CPU یا واحد پردازندهی اصلی را برای آن به کار میبرد. ولیکن در عمل اینتل هم در اکثر مدلها از پردازندهی اصلی و گرافیکی در کنار هم استفاده میکند. برای اطلاعات بیشتر در این زمینه به مقالهی "تفاوت بین CPU، GPU و APU چیست؟ هر کدام چه مأموریتی دارند؟" مراجعه کنید.
همانطور که استفاده از APU از سال 2010 روند صعودی شدیدی به خود گرفت، احتمالاً با پشتیبانی خوب نرمافزاری، استفاده از HSA هم همین روند را در پیش بگیرد. در کاوری از معماری دسترسی ناهمگن یکنواخت به حافظه یا به اختصار hUMA پشتیبانی کامل میشود. برای مطالعه در این رابطه باز هم نگاهی به مقالهی " AMD با فناوری hUMA یک گام بزرگ در دنیای پردازندهها برداشت" مراجعه کنید.
خلاصه بگوییم، پرازندهی گرافیکی و اصلی، وقتی در حالت عادی کار میکنند، دسترسی به حافظه در آن واحد امکانپذیر نیست؛ و لذا پهنای باند حافظه به شکل بهینهای استفاده نمیشود. با HSA و hUMA میتوان رابطهی بین دو پردازنده را نزدیکتر کرد به طوری که برای محاسبه، توان هر دو مورد استفاده قرار گیرد.
اما این ابتدای راه معماری HSA است و پشتیبانی سازندگان نرمافزار هم لازم است. ایامدی برای پشتیبانی بهتر پلتفرمهای مختلف از HSA و نیز OpenCL 2.0، یک لایهی دستوری یا HSAIL معرفی کرده که هدف آن کاربرد در زبانهای معروف مثل C++، جاوا، C++ AMP و همچنین کتابخانههای معروف واسطهای برنامهنویسی است. ایامدی میخواهد کاری کند که سازندهی نرمافزار به راحتی هر چه تمامتر کدهایی برای استفاده از تکنولوژی HSA بنویسد.
کاوری قرار است بازیها را در رزولوشن 1080p با سرعت بالاتر از 30 فریم بر ثانیه اجرا کند
پردازندهی گرافیکی در کاوری، آن قدر قدرت ندارد که بتواند بازیها را با آخرین تنظیمات به شکل روان و سریع اجرا کنید؛ ولیکن هدف ایامدی این بوده که حتی بازیهای مدرن هم روی این تراشهها اجرا شوند؛ البته با کاهش تنظیمات تا حد متوسط.
بازیهای گرافیکی مثل BattleField 4 و Crysis 3، برای تمام کارت گرافیک موجود سنگین هستند؛ مخصوصاً اگر قابلیتهای مبتنی بر دایرکت ایکس 11، یعنی عمق میدان، نورپردازی کامل، بسته بودن محیط و فیلترهای دوجهته را فعال کنید.
روش جدید شمارش هستهها با یکپارچگی دو پردازندهی اصلی و گرافیکی
در دنیای گوشیها و تبلتها، تبلیغ تعداد هستههای یک سیستم-روی-یک-چیپ، به مسألهای جدی تبدیل شده؛ به طوری که اپل، کوآلکام، سامسونگ و انویدیا، همگی تعداد هستههای پردازندهی اصلی و گرافیکی را به صورت جدا بیان میکنند. انویدیا با معرفی تراشهی قدرتمند تگرا کیوان که چندی پیش بررسی عمیق آن در زومیت منتشر شد، روش جدیدی برای بیان تعداد هستهها در پیش گرفت. 192 هستهی CUDA تنها روی یک SoC کوچک و رکوردشکنی تگرا کیوان در بنچمارکها، حاصل طراحی ویژهی انویدیا بوده است.
مشخص است که ایامدی با یکپارچه کردن دو پردازندهی اصلی و گرافیکی در کاوری، باید نسبت به تغییر نحوهی بیان تعداد هستهها اقدام کند. از این رو از اصطلاح Compute Core یا هستهی محاسباتی استفاده کرده است. هستهی محاسباتی ممکن است یکی از هستههای x86 پردازندهی اصلی و یا یکی از واحدهای محاسباتی در معماری GCN پردازندهی گرافیکی باشد.
در مجموع تعداد کل هستههای محاسباتی برابر است با با حاصلجمع تردهایی که روی پردازندهی اصلی اجرا میشوند و همچنین تعداد واحدهای محاسباتی پردازندهی گرافیکی.
در مورد مدل A10-7850K که 4 هستهی پردازندهی اصلی دارد و 4 ترد پردازشی را اجرا میکند و نیز 8 واحد محاسباتی در پردازندهی گرافیکی آن که از خانوادهی R7 پردازندههای گرافیکی است، دیده میشود، در مجموع 12 هستهی محاسباتی وجود دارد.
قابل ذکر است که در معماری GCN خانوادهی کارت گرافیکهای هاوایی، تعداد کرنل یا هستههایی که میتوان روی واحدهای محاسباتی ایجاد کرد، با تعدادشان برابر است. در چند نسل قبل، روی پردازندهی گرافیکی، تنها یک کرنل قابل اجرا بود و بلوکهای پردازشی برای اجرا روی تمام واحدهای محاسباتی، به بخشهای کوچکتر شکسته میشدند.
در نهایت 12 هستهی محاسباتی با هم متفاوت هستند و برنامهنویس برای استفاده از تمام توان تراشه، باید کدهای مجزایی برای پردازندهی اصلی و گرافیکی بنویسد. به همین علت است که در معرفی مشخصات کاوریها باید اینگونه نوشت: 12 هستهی پردازشی (4 پردازندهی اصلی + 8 پردازندهی گرافیکی) تا سازندهی نرمافزار، کد مناسب برای آن بنویسد.
البته کاربران عادی ممکن است به اشتباه بیافتند و تصور کنند که 12 هسته تعداد بسیار زیادی است و مسلماً بهتر از تراشههای اینتل با تعداد هستههای بسیار کمتر است.
مشکل اصلی در استفادهی کامل از توان پردازشی سه APUی کاوری این است که برنامهنویس با فرکانس کاری بسیار متفاوتی سر و کار دارد. پردازندهی گرافیکی 720 مگاهرتز سرعت دارد در حالی که سرعت پردازندهی اصلی متغیر و بیش از 3 گیگاهرتز است.
تغییرات ایجاد شده در نسل سوم هستههای بولدوزر به نام استیمرُولر
استیمرولر تقریباً همان معماری بولدوزر را حفظ کرده؛ هر ماژول دارای 2 هستهی پردازندهی اصلی است که خود دارای 2 هسته برای محاسبات اعداد اینتیجر هستند و یک واحد محاسبهی اعداد اعشاری نیز به طور مشترک مورد استفاده قرار میگیرد. در نهایت دو ترد پردازشی به شکل موازی قابل اجرا ست. سیستمعامل یک ماژول را به صورت دو هسته با دو ترد پردازشی میبیند.
در بولدوزر و پایلدرایور، هر هستهی محاسبات اینتیجر، دارای صف زمانبندی مستقل بود؛ ولیکن دو هسته صف واکشی و رمزگشایی یا دیکُد، مشترک داشتند. دستور وارد میشد و پس از رمزگشایی، در سیکلهای متناوب کلاک به یکی از کانالهای اطلاعاتی اینتیجر منتقل میگردید. در استیمرولر بخش رمزگشایی به تعداد ماژولها تکثیر شده؛ بنابراین هر هستهی محاسبات اینتیجر، خود دارای واحد رمزگشایی مخصوص به خود است. دو واحد رمزگشایی نیز توسط یک واحد محاسبهی اعشاری استفاده میشوند.
کش دستور سطح یک برای هر ماژول دو هستهای، از 64 کیلوبایت به 96 کیلوبایت افزایش یافته و ایامدی معتقد است که این افزایش، به 30 درصد خطای کمتر میانجامد. پیشگوی شاخهها نیز به روز شده و تعداد شاخههای پیشبینی نشده در اجرای دستورات را تا 20 درصد کاهش داده است. منظور از پیشگوی شاخهها در اجرای دستورات شرطی، پیشبینی شاخهای است که احتمالاً اتفاق میافتد و دستورالعملهای بعدی به آن شاخه تعلق دارند.
تغییر دیگر در استیمرولر، افزایش اندازهی ثبات یا رجیستر اعداد اعشاری و اینتیجر و همچنین افزایش اندازهی بخش زمانبندی است که ترکیب این دو مورد، تعداد ارسالها در یک ترد را 25 درصد افزایش میدهد.
در بخش ذخیرهسازی هم تغییرات بزرگی صورت گرفته؛ به طوری که استیمرولر در آن واحد قادر به تخصیص 2 عمل ذخیرهسازی است که در بولدوزر و نسل بعدی آن، پایلدرایور تنها 1 مورد بود. اندازهی صف بارگذاری و ذخیرهکردن هم حدود 20 درصد رشد کرده که نشاندهندهی طراحی خوب بولدوزر است.
GCN، معماری پردازندهی گرافیکی
GCN نام معماری معروف پردازندههای گرافیکی ایامدی است. در دو نسل قبل یعنی ترینیتی و ریچلند از معماری پردازندههای Cayman استفاده میشد که ساختار VLIW4 داشت. اما ایامدی با موفقیت معماری جدید GCN در کارت گرافیکهای خود، از آن استفاده کرده تا کاوری از نظر پردازندهی گرافیکی، قدرت بالایی داشته باشد. از طرفی سازندگان نرمافزار هم از یکسان شدن معماری کارت گرافیکهای خانوادهی Radeon 200 که به تازگی در بازار عرضه میشوند با نسل جدید APUهای ایامدی، کمال استفاده را میبرند؛ چرا که نیازی به بهینه کردن کدها برای دو معماری کاملاً متفاوت نیست.
ایامدی هم از تشابهی کارت گرافیکهای هاوایی و پردازندههای کاوری کمال استفاده را میبرد؛ به این صورت که اضافهکردن تکنولوژی پردازش سیگنال صوتی تروآودیو، موتور رمزگذاری ویدیو، رمزگشایی یکپارچهی ویدیویی و هر آنچه موجب برتری کارت گرافیکهای جدید ایامدی بر رقیب دیرینهاش، یعنی انویدیا شده، به راحتی امکانپذیر است.
علاوه بر این دو کنسول، نسل جدید هم از پردازندههای گرافیکی مشابهی استفاده میکنند که امکان بهینهکردن بازیها برای کارت گرافیکهای ایامدی و نیز تراشههای کاوری را میسر میکند.
قالب سه نسل از APUهای ایامدی
نگاهی به سه تصویر از قالب تراشههای خانوادهی لنو، ترینیتی و کاوری داشته باشید:
یک لنوی 4 هستهای
قالب ترینیتی و ریچلند با 4 هسته یا 2 ماژول پایلدرایور
قالب کاوری با دو ماژول و پردازندهی گرافیکی آن
به جزئیاتی مثل معماری و مدل پردازندهی گرافیکی، تعداد هستهها و ترانزیستورها و فرکانس کاری و توان مصرفی مدلهایی از 4 نسل APUهای ایامدی توجه کنید:
البته به غیر از اینتل، هیچ کمپانی دیگری در انتشار تعداد دقیق ترانزیستورهایی که روی تراشههایش جا خوش کرده، عملکرد خوبی نداشته؛ ولیکن امیدواریم که ایامدی این بار تعداد ترانزیستورهای پردازندهی اصلی و گرافیکی را به درستی بیان کرده باشد.
مشاهده میکنید که تراکم ترانزیستورها در سه نسل APUهای ایامدی، مرتباً افزایش داشته؛ ولیکن هنوز هم لیتوگرافی 22 نانومتری اینتل در تراشههای 4 هستهای هسول، با وجود اینکه بخش متراکم پردازندهی گرافیکی آن سطح کمتری دارد، در مجموع رکورد خوبی را داراست. در واقع کاوری با استفاده از سطح بیشتری که به پردازندهی گرافیکی اختصاص داده، رکوردشکنی کرده است. پردازندههای گرافیکی ایامدی و انویدیا که برای کارت گرافیکها طراحی شدهاند هم تراکم بالاتری دارند.
سه قابلیت جانبی: تروآودیو، رمزگشا و رمزگذاری ویدیو
قبلاً در بررسی کامل کارت گرافیکهای جدید ایامدی به بررسی کامل تروآودیو پرداختیم. تکنولوژی ویژهای که در کنسولهای بازی جدیدی مثل پلیاستیشن 4 هم مورد استفاده قرار گرفته است.
با نگاهی گذرا به تصویر زیر، مشخص میشود که تفاوت رمزگشای یکپارچهی ویدیویی نسخهی 4 به 3 در چیست. تنها دیکدکردن ویدیوهای H.264 که بهینه شده است.
در مورد اینکودر یا موتور رمزگذاری هم، نسخهی جدیدی معرفی شده که در رمزگذاری به صورت H.264، موفقتر خواهد بود. علت این موضوع، پشتیبانی از B فریم است که کیفیت را افزایش میدهد و یا با حفظ کیفیت، بیتریت را کاهش میدهد. از طرفی پشتیبانی از فضای رنگ با کیفیتتر YUV444، فشرده کردن متن و نوشتههای ساده را بهینه میکند که برای نمایشگرهای بیسیم مفید است.
قدرتنمایی پردازندهی گرافیکی مجتمع
ایامدی با بررسی آمار به این نتیجه رسیده که تقریباً یک سوم بازیخورهایی که از بازیهای Steam استفاده میکنند، کارت گرافیکی ضعیفتر از تراشهی A10-7850K دارند. بنابراین 512 پردازندهی جریانی که در این کارت گرافیک وجود دارد، برای این افراد بسیار مهم است.
پردازندههای اینتل معمولاً پردازندهی گرافیکی مجتمع ضعیفتری دارند. بنابراین ایامدی برای فروش بهتر، پردازندهی گرافیکی خوبی در تراشههای خود قرار داده که 47 درصد سطح تراشه را اشغال میکند.
فعلاً کارت گرافیکهای قدرتمند و پرمصرف دسکتاپ، نسبت به پردازندهی گرافیکی مجتمع به کار رفته در کاوریها، توان پردازشی به مراتب بیشتری دارند؛ ولیکن قابلیتهای ویژهای مثل HSA، hQ و hUMA، هنوز تا نمایش توان واقعی خود در بهینه کردن پردازش، فاصلهی زیادی دارند. این سه ویژگی در بازیها و دستکاری بافت بسیار موثرند؛ چرا که در این کاربردها، پردازندهی گرافیکی همواره به فراخوانی پردازندهی اصلی مشغول است.
معماری GCN 1.1 این اجازه را به واحدهای پردازشی خود میدهد که به شکل غیر همزمان، به زمانبندی و اجرای کارهای پردازشی مختلف بپردازند. بنابراین در مورد مدلی مثل A10-7850K با 8 واحد پردازشی روبرو هستیم که به شکل 8 پردازندهی گرافیکی کوچکتر فعالیت میکنند.
علیرغم بهینهسازیهای انجام شده روی مرز ارتباطی پردازندهی گرافیکی، هنوز هم محدودیت پهنایباند که به رم دوآل چنل یا دو کانالهی DDR3 مربوط میشود، وجود دارد. لذا ایامدی در ادامهی راه باید به فکر نوعی رم سطح سوم یا eDRAM باشد که این مشکل حل شود.
Mantle و بهینه کردن بازیها و نرمافزارهای گرافیکی
بزرگترین و مهمترین تغییری که ایامدی در دنیای پردازش گرافیکی ایجاد کرده و به معماری GCN مربوط میشود، Mantle است. منتل یک واسط برنامهنویسی سطح پایین است که به سازندگان موتور سهبعدی بازیها، اجازهی بهینه کردن آن را میدهد؛ چرا که فراخوانی ترسیمها کاهش مییابد. در این مورد بهتر است به مقالهی "AMD و عرضهی واسط جدید برنامهنویسی Mantle برای 100 هزار ترسیم در یک فریم" مراجعه کنید.
منتل در اعمال تکتردی پردازندهی اصلی موثرتر است؛ چرا که ایامدی همواره در عملکرد تکهستهای از اینتل عقب مانده و لذا کاوری شاید با استفاده از منتل، حداقل در بازیها از رقبای اینتلی خود پیشی بگیرد.
جالب است که ایامدی در مواردی که اجرای سناریو به فراخوانی محدود میشود به رکورد 2 برابر شدن سرعت دست یافته؛ البته این به نسخههای آزمایشی منتل مربوط میشود. بازی Battlefield 4 یکی از اولین بازیهایی است که به زودی آپدیتی برای استفاده از منتل دریافت میکندو به طور کلی این موتور گرافیکی Frostbite 3 است که با به کار بردن منتل، بهینه میشود. ایامدی در اولین بررسیها، به 45 درصد سرعت بیشتر در اجرای این بازی دست یافته که در دنیای گرافیک خارقالعاده است.
تا عرضهی نسخهی عمومی باید صبر کنیم و ببینیم منتل در عمل نسبت به دایرکت ایکس چه قدر سریعتر خواهد بود. احتمالاً در ماه جاری بالاخره EA و DICE مشکلات بتلفیلد 4 را حل کنند و ایامدی هم به سرعت منتل را برای بهینهکردن موتور بازی، به کار ببرد.
ترکیب کارت گرافیک مجزا و پردازندهی گرافیکی مجتمع
ایامدی برای نمایش اجرای بازی با دو پردازندهی گرافیکی مجزا و داخلی، از یک کارت گرافیک نسبتاً ضعیف استفاده کرده که مدل آن R7 240 با 2 گیگابایت حافظهی GDDR3 است. درست مثل این است که بخواهیم دو کارت گرافیک مجزای ایامدی را با تکنولوژی Crossfire ترکیب کنیم یا مثلاً دو محصول انویدیا را با تکنولوژی SLI به شکل موازی به کار ببریم.
معمولاً در اجرای بازیها با دو کارت گرافیک، مشکل زمانبندی گریبانگیر مجموعهی کارت گرافیکها میشود و همانطور که در مقالهی "انویدیا با معرفی FCAT فصل تازهای را در بررسی تخصصی عملکرد کارتهای گرافیک آغاز کرد" گفتیم، برخی فریمها با تأخیر زیاد پردازش میشوند. ایامدی در ماههای اخیر با معرفی روش Frame Pacing یا تنظیم سرعت فریمها، مشکل را تا حد زیادی حل کرده و به نظر میرسد که حالا مشتریان میتوانند یک کارت گرافیک مجزای ساده را با کاوری ترکیب کنند و از بازیها لذت ببرند.
ایامدی مدعی است که میتوان هر کارت گرافیک سری R7 که حافظهی GDDR3 دارد را با پردازندهی گرافیکی مجتمع کاوریها ترکیب کرد. توصیه شده که از نسخهی 13.35 درایور کاتالیست استفاده شود که قرار است در ماه آینده منتشر شود.
نتیجه بنابر ادعای ایامدی به صورت زیر است:
البته توجه داشته باشید که در مورد APUهای نسل قبل، یعنی ریچلند و ترینیتی هم امکان ترکیب دو پردازندهی گرافیکی وجود داشت؛ ولیکن معماری متفاوت، موجب بروز مشکلات میشد و عملکرد چندان بهینه نبود. در دو نسل قبلی همانطور که بیان کردیم، معماری پردازندهی گرافیکی، VLIW4 بود؛ در حالی که کارت گرافیکهای جدید ایامدی، همگی معماری GCN دارند. لذا سرعت اجرای بازیها یکنواختتر از قبل شده و میتوان روی این روش حساب بیشتری باز کرد. اما هنوز هم مدت زمان لازم برای رندر شدن درصد نسبتاً زیادی از فریمها، بسیار بیشتر از حالت تک پردازندهای است و باید تا بهتر شدن درایور صبر کنیم. به تصویر زیر توجه کنید و خودتان مقایسه کنید:
Fluid Motion Video برای پخش روانتر ویدیوهای 24 هرتزی
موضوع پخش ویدیوهای معمولی که سرعت 24 فریم بر ثانیهای دارند را قبلاً در مقالهی "آیا Refresh Rate مانیتور واقعا مهم است؟" مورد بررسی قرار دادیم. تکنولوژی فیوئید موشن ویدیوی ایامدی، برای نمایش روانتر، از روش میانیابی بین فریمهای متوالی استفاده میکند که خود موجب افزایش روانی ویدیو و کیفیت بهتر آن میشود. توضیحات بیشتری در این زمینه فعلاً منتشر نشده است.
سختافزار و اورکلاک کردن مدلهای تست شده
در تصویر زیر سختافزار، درایور و سیستمعامل به کار رفته برای تستکردن محصولات جدید ایامدی مشخص شده است:
رقبای اینتلی هم با ترکیب زیر در تستها شرکت میکنند:
نتیجهی اورکلاک کردن A10-7850K به شرح زیر است که در آن، Vcore ولتاژ هستهی پردازنده، Load Voltage ولتاژ در حالت بار پردازشی سنگین، PovRay امتیاز به دست آمده در بنچمارک مربوطه و OCCT هم امتیاز در بنچمارک بعدی است.
توان مصرفی در حالت بی کار یا Idle و توان مصرفی در OCCT نیز در جدول زیر ذکر شده که تفاوت آن ستون آخر است.
نتیجهی بنچمارکهای پردازندهی اصلی
بنچمارک جدید Agisoft، برای تهیهی مدل سه بعدی از تصاویر دو بعدی که محاسبات سنگینی نیاز دارد. فرکانس کاری بالاتر، اجرای دستورات بیشتر در یک کلاک یا به اختصار IPC بالاتر، هستههای بیشتر و در نهایت استفاده از زبان محاسباتی متن باز یا OpenCL در این آزمون موثرند.
زمان کلی، به نفع ایامدی تمام نشده؛ اما جالب است که در دومین مرحله از 4 مرحلهی بنچمارک، استفاده از پردازندهی گرافیکی مجتمع کار را ساده میکند و ایامدی رکوردها را میشکند. دقت کنید که پیام تکنولوژی HSA هم تا حدی در این رکوردشکنی دیده میشود.
نرمافزار فشردهکردن فایلها، WinRAR 5.01 هم برای مقایسهی توان پردازندهها مناسب است. نتیجه باز هم به نفع اینتل است:
تبدیل ویدیو با استفاده از Xilisoft Video Convertor 7 هم نتایج جالب توجهی دارد. تبدیل ویدیوهای رزولوشن بالا مثلاً کلیپ 10 دقیقهای با رزولوشن 3840 در 4320 به مدت زمانی که در نمودار زیر نشان داده شده، نیاز دارد. توجه کنید که این نرمافزار از شتابدهی تبدیل ویدیو با استفاده از CUDA انویدیا یا AMD APP پشتیبانی میکند. بنابراین در مورد تراشههای دارای پردازنده گرافیک مجتمع یا در کنار کارت گرافیک مجزا، دو عدد ذکر شده که زمان لازم برای تبدیل با یا بدون استفاده از شتابدهی است.
در تبدیل یک ویدیو با رزولوشن 640 در 266 پیکسل، تأثیر پردازندهی گرافیکی مشخصتر است؛ چیزی که در ویدیوی رزولوشن بالا دیده نمیشود.
در نرمافزار 7-zip که یک فشردهساز فایل و فولدر است هم اینتل وضعیت به مراتب بهتری دارد.
در نهایت به نرمافزار TrueCrypt میرسیم که برای رمزگذاری فایل و فولدر کاربرد دارد. مقدار دادهی رمزگذاری شده در هر ثانیه به صورت زیر است:
بنچمارک در بازیها
با استفاده از پردازندهی گرافیکی مجتمع به اجرای بازیهای Bioshock Infinite و Tomb Raiderبا تنظیمات معمولی میپردازیم.
مشخص است که کارت گرافیک HD 6750 ایامدی نسبت به پردازندهی گرافیکی مجتمع کاوریها سریعتر است. علاوه بر این آیریس پروی اینتل هم رکورد بسیار خوبی ثبت کرده است. نکتهی دیگر این است که برای بازیهای سنگین، حتی در رزولوشن بسیار پایین هم نمیتوان انتظار زیادی از کاوری داشت.
بنچمارکهای محاسباتی با OpenCL
CompuBench CL یک آزمون محاسباتی است که میتوان دو بخش Fluid Dynamics و Computer Vision آن را روی پردازندهی اصلی و گرافیکی اجرا کرد. نتیجه به صورت زیر است:
برتری معماری GCN در این آزمون کاملاً مشخص است.
جمعبندی و سخن آخر
کاوری در بخش پردازندهی گرافیکی بسیار خوب عمل میکند. به نمودار زیر نگاهی بیاندازید و عملکرد مدلهای 45 واتی سه نسل از APUهای ایامدی را در بازیهای مختلف مقایسه کنید.
در مقایسه با اینتل، بهترین پردازندهی گرافیکی مجتمع، اینتل آیریس پرو است که کمی ضعیفتر از A10-7850K که فعلاً پرچمدار کاوریهاست، ظاهر میشود. بنابراین ایامدی در این بخش عملکرد خوبی داشته است.
در بخش پردازندهی اصلی، معماری نسل سوم هستههای بولدوزر که استیمرولر نام دارند، چندان متفاوت با دو نسل قبلی خود نیست. بنابراین نتیجه در مقایسه با پردازندههای خوب اینتل، جالب توجه نبوده است.
در مجموع فعلاً ایامدی در مقایسه با محصولات خوب اینتل، مدلهای ارزانتری ارایه کرده تا شاید بخشی از بازار را از آن خود کند؛ البته با توجه به تصویر زیر هنوز هم انتخاب تراشههای ایامدی به جای رقبای اینتلی، مشکل است:
ولیکن آنچه در مورد کاوریها مهم است، قابلیتهایی مثل سه تکنولوژی بهینهسازی پردازش ترکیبی با استفاده از پردازندهی اصلی و گرافیکی، یعنی HSA، hUMA و hQ است که در کنار سختافزار پردازش صوتی TruAudio قرار میگیرد و در نهایت لایهی نرمافزاری Mantle که قرار است به زودی دنیای پردازش را دگرگون کند.
به عنوان مثال در نرمافزار آفیس LibreOffice برای محاسبه و آپدیت نمودارها اگر از HSA به جای OpenCL و محاسبهی سادهی نرمافزاری استفاده شود، نتیجهی باورنکردنی زیر حاصل میشود:
یا در دیکد کردن عکسهایی با فرمت JPG:
گرچه همیشه هم اوضاع به برتری مطلق ایامدی منتهی نمیشود، مثلاً در نرمافزار ویرایش عکس Corel که همچنان اینتل بهتر است:
به هر حال فعلاً اثر تکنولوژیها و واسط نرمافزارنویسی منتل، در آزمونها قابل مشاهده نیست؛ ولیکن بنابر ادعای ایامدی، منتل در بازی بتلفیلد 4، سرعت اجرا را تا 45 درصد افزایش داده که رقمی فوقالعاده است و آیندهی HSA را امیدوارکننده نشان میدهد.
بنابراین باید منتظر رونمایی از بازیها و نرمافزارهایی باشیم که از HSA استفاده میکنند و قدرت واقعی کاوری را نشان میدهند.
نظر شما در مورد HSA و تکنولوژیهایی که ایامدی اخیراً معرفی کرده چیست؟ آیا ممکن است ایامدی با کنار هم قراردادن لایههای مختلف نرمافزاری و سختافزاری خود، گوی سبقت را از اینتل و انویدیا برباید؟