techbord.com انویدیا آمپر در مقابل AMD RDNA 2: نبرد معماری ها

میانبرهای خرید:

برای علاقه مندان به GPU مدت زیادی منتظر مانده است. انویدیا قبل از جایگزینی با آمپر در سپتامبر 2020 خط تورینگ را دو سال ادامه داد. AMD کمی مهربان تر بود و 15 ماه فاصله بین طرح های جدید خود را حفظ کرد ، اما بیشتر مردم علاقه ای به این کار نداشتند.

< آنچه که آنها می خواستند ببینند این بود که AMD یک مدل برتر را برای رقابت رو در رو با بهترین های انویدیا به بازار عرضه می کند. آنها این کار را انجام دادند و اکنون که نتایج را مشاهده کردیم ، گیمرهای رایانه شخصی برای انتخاب دلار (حداقل از لحاظ تئوریک) ، وقتی که می خواهند دلار خود را صرف کارت های گرافیکی با بهترین عملکرد کنند ، خراب شده اند.

اما چیپس هایی که به آنها نیرو می دهند چطور؟ آیا اساساً یکی از آنها بهتر از دیگری است؟ ادامه مطلب را بخوانید تا ببینید آمپر و RDNA 2 چگونه با آن مبارزه می کنند!

توجه داشته باشید این مقاله طولانی است. از این فهرست برای پیمایش استفاده کنید ...

مقاله فهرست گره ها و اندازه های قالب ساختار کلی Ampere GA102 و RDNA 2 Navi 21 نحوه سازماندهی همه چیز در داخل تراشه ها شمارش هسته ها به روش Nvidia سیستم حافظه Ray Tracing Memory ، حافظه پنهان های چند سطح خطوط لوله رندر ، موتور چندرسانه ای SAM ، RTX IO ، پخش جریانی ساخته شده برای محاسبات ، ساخته شده برای بازی Nvidia کوچک می شود ، AMD گره ها را بزرگ می کند و اندازه آنها را از بین می برد به طور پیوسته در اندازه افزایش یافته است. مساحت آخرین پیشنهاد AMD تقریباً 520 میلی متر مربع است که بیش از دو برابر تراشه قبلی Navi آنها است. هرچند بزرگترین آنها نیست - این افتخار به پردازنده گرافیکی در شتاب دهنده Instinct MI100 جدیدشان ، با حدود 750 میلی متر مربع می رسد.

آخرین باری که AMD پردازنده بازی را در هرجای دیگری به اندازه Navi ساخت 21 برای کارت های Radeon R9 Fury و Nano بود که از معماری GCN 3.0 در تراشه فیجی برخوردار بود. مساحت آن 596 میلی متر مربع بود ، اما در گره فرآیند 28HP TSMC تولید شده است.

AMD از سال 2018 از روند N7 بسیار کوچک TSMC و بزرگترین تراشه از آن خط تولید استفاده کرده است. Vega 20 بود (همانطور که در Radeon VII یافت شد) ، با مساحت 331 mm2. تمام پردازنده های گرافیکی Navi آنها بر اساس یک فرآیند ساخته شده اند ، بنابراین مقایسه این محصولات ایجاد می کند.

https://techbord.com Nvidia Ampere در مقابل AMD RDNA 2: Battle of the Architectures \

Radeon R9 Nano: کارت کوچک ، GPU عظیم

اما وقتی نوبت به اندازه بزرگ می رسد ، انویدیا تاج را می گیرد ، نه اینکه این لزوما چیز خوبی باشد. آخرین تراشه مبتنی بر آمپر ، GA102 ، 628 میلی متر مربع است. این در واقع حدود 17٪ کوچکتر از پدربزرگ خود ، TU102 است - که GPU در منطقه مرگ 754 میلی متر مربع است.

هر دو در مقایسه با تراشه هیولای GA100 انویدیا از نظر اندازه کم رنگ هستند - این پردازنده گرافیکی در مراکز داده و هوش مصنوعی مورد استفاده قرار می گیرد 826 میلی متر مربع است و تراشه TSMC N7 است. اگرچه هرگز برای تأمین انرژی کارت گرافیک رومیزی طراحی نشده است ، اما نشان می دهد که مقیاس تولید GPU امکان پذیر است.

قرار دادن همه آنها کنار هم نشان می دهد که بزرگترین پردازنده های گرافیکی Nvidia بزرگ هستند. Navi 21 نسبتاً پیچیده به نظر می رسد ، اگرچه پردازنده بیش از محوطه ای برای پردازش ندارد. GA102 حدود 28.3 میلیارد ترانزیستور را بسته بندی می کند ، در حالی که تراشه های جدید AMD 5٪ کمتر ، 26.8 میلیارد تراشه دارند.

\"

آنچه ما نمی دانیم هر GPU چند لایه است ساخته شده است ، بنابراین آنچه ما می توانیم مقایسه کنیم نسبت ترانزیستورها به مساحت قالب است که معمولاً چگالی قالب نامیده می شود. Navi 21 تقریباً 51.5 میلیون ترانزیستور در هر میلی متر مربع است ، اما GA102 به طور قابل توجهی کمتر از 41.1 است - ممکن است تراشه انویدیا کمی بالاتر از AMD قرار بگیرد ، اما احتمال آن وجود دارد نشانه گره فرآیند باشد.

همانطور که قبلاً ذکر شد ، Navi 21 با استفاده از روش تولید N7 توسط TSMC تولید می شود. اما انویدیا برای پیشنهاد جدید خود ، GA102 ، برای انجام وظایف تولیدی به سامسونگ مراجعه کرد. غول نیمه هادی کره جنوبی از یک نسخه اصلاح شده ، به ویژه برای انویدیا ، به اصطلاح گره 8 نانومتری خود (با برچسب 8N یا 8NN) استفاده می کند.

این مقادیر گره ، 7 و 8 ، کار چندانی ندارند. با اندازه واقعی قطعات با تراشه ها: آنها به سادگی از اصطلاحات بازاریابی استفاده می کنند که برای تفاوت بین تکنیک های مختلف تولید استفاده می شود. گفته شد ، حتی اگر GA102 لایه های بیشتری نسبت به Navi 21 داشته باشد ، اندازه قالب یک تأثیر خاص دارد.

\"

ویفر 300 میلیمتری (12 اینچ) که در ساخت TSMC آزمایش می شود کارخانه.

ریزپردازنده ها و تراشه های دیگر از دیسک های بزرگ دایره ای شکل از سیلیکون بسیار تصفیه شده و مواد دیگر ساخته می شوند که ویفر نامیده می شوند. TSMC و سامسونگ از ویفرهای 300 میلی متری AMD و Nvidia استفاده می کنند و هر دیسک تراشه های بیشتری را با استفاده از قالب های کوچکتر در مقایسه با بزرگترها تولید می کند.

بعید به نظر می رسد که این تفاوت زیاد باشد ، اما وقتی هر ویفر هزار دلار هزینه دارد. برای تولید ، AMD از مزایای کمی نسبت به انویدیا برخوردار است ، وقتی که می خواهد هزینه های تولید را پایین بیاورد. البته این فرض بر این است که سامسونگ یا TSMC نوعی معامله مالی با AMD / Nvidia انجام نمی دهند.

همه این اندازه های اندازه و شمارش ترانزیستورها هیچ چیز نخواهد بود ، اگر تراشه ها در کاری که می خواهند انجام دهند خوب نبودند. بنابراین بیایید به بررسی چیدمان هر پردازنده گرافیکی جدید بپردازیم و ببینیم که در زیر هودهای آنها چه مواردی وجود دارد.

کالبد شکافی قالب ها ساختار کلی Ampere GA102 و RDNA 2 Navi 21 با نگاهی به ساختار کلی پردازنده های گرافیکی Ampere GA102 و RDNA 2 Navi 21 - این نمودارها لزوماً به ما نشان نمی دهند که چگونه همه چیز از لحاظ فیزیکی چیده شده است ، اما آنها نشان می دهند که تعداد پردازنده ها چه تعداد است.

در هر دو حالت ، طرح بندی ها بسیار آشنا هستند ، زیرا آنها در اصل نسخه های توسعه یافته قبلی هستند. افزودن واحدهای بیشتر به دستورالعمل های پردازش ، همیشه عملکرد GPU را افزایش می دهد ، زیرا در وضوح بالا در آخرین فیلم های پرفروش 3D ، بارهای کاری رندر شامل تعداد زیادی محاسبات موازی است.

چنین نمودارهایی مفید هستند ، اما برای این تجزیه و تحلیل خاص ، در واقع جالبتر است که ببینید اجزای مختلف درون GPU خود کجا هستند. هنگام طراحی پردازنده در مقیاس بزرگ ، شما به طور کلی منابع مشترک ، مانند کنترل کننده ها و حافظه پنهان را در یک موقعیت مرکزی می خواهید ، تا اطمینان حاصل کنید که هر م pathلفه مسیر مشابهی با آنها دارد.

سیستم های رابط ، مانند کنترل کننده های حافظه محلی یا خروجی های ویدئو باید به لبه های تراشه بروند تا اتصال آنها به هزاران سیم جداگانه که GPU را به بقیه کارت گرافیک متصل می کنند آسان تر باشد.

در زیر تصاویر رنگی کاذب از AMD \ \'Navi 21 و Nvidia \\' s GA102 می میرد. برای تمیز کردن تصاویر ، هر دو از طریق پردازش تصویر اجرا شده اند و هر دو در واقع فقط یک لایه درون تراشه را نشان می دهند. اما آنها یک نمای عالی از شکافهای GPU مدرن به ما می دهند.

https://techbord.com Nvidia Ampere در مقابل AMD RDNA 2: Battle of the Architectures

بارزترین تفاوت بین طراحی ها این است که انویدیا از رویکرد متمرکز برای طرح تراشه پیروی نکرده است. - تمام کنترل کننده های سیستم و حافظه پنهان اصلی در پایین قرار دارند ، واحدهای منطقی در ستون های طولانی اجرا می شوند. آنها این کار را در گذشته انجام داده اند ، اما فقط با مدل های متوسط ​​/ پایین تر.

به عنوان مثال ، Pascal GP106 (که در نمونه هایی از GeForce GTX 1060 استفاده می شود) به معنای واقعی کلمه نیمی از GP104 بود ( از GeForce GTX 1070). دومی تراشه بزرگتری بود و حافظه پنهان و کنترل کننده های آن در وسط قرار داشتند. اینها در خواهر و برادرش به آن طرف منتقل شدند ، اما فقط به دلیل اینکه طرح تقسیم شده بود.

https://techbord.com Nvidia Ampere در مقابل AMD RDNA 2: Battle of the Architectures \

Pascal GP104 vs GP106. منبع: Fritzchens Fritz

انویدیا برای تمام طرح های برتر GPU قبلی خود ، از یک سازمان متمرکز کلاسیک استفاده کرد. پس چرا این تغییر در اینجا رخ داده است؟ این نمی تواند به دلایل رابط باشد ، زیرا کنترل کننده های حافظه و سیستم PCI Express همه در لبه قالب قرار دارند.

به دلایل حرارتی نیز نخواهد بود ، زیرا حتی اگر بخش حافظه نهان / کنترل کننده داغتر از بخشهای منطقی است ، شما هنوز هم می خواهید در وسط آن سیلیکون بیشتری داشته باشد تا به جذب و دفع گرما کمک کند. اگرچه ما از دلیل این تغییر کاملاً مطمئن نیستیم ، اما گمان می کنیم این مربوط به تغییراتی باشد که انویدیا با واحدهای ROP (خروجی رندر) در تراشه اعمال کرده است.

ما بعداً با جزئیات بیشتر به آنها نگاه خواهیم کرد ، اما اکنون باید بگوییم که اگرچه تغییر در طرح عجیب به نظر می رسد ، اما تفاوت قابل توجهی در عملکرد نخواهد داشت. این به این دلیل است که ارائه سه بعدی با تاخیرهای طولانی زیادی همراه است ، معمولاً به دلیل منتظر ماندن برای داده ها. بنابراین نانو ثانیه اضافه شده با داشتن واحدهای منطقی دورتر از حافظه نهان نسبت به بقیه ، همه در طرح بزرگ موارد پنهان می شوند.

قبل از ادامه کار ، شایسته است در مورد تغییرات مهندسی AMD توجه داشته باشید. در طرح Navi 21 اجرا شده است ، در مقایسه با Navi 10 که مانند Radeon RX 5700 XT قدرت دارد. حتی با وجود تراشه جدید ، هم از نظر مساحت و هم از نظر تعداد ترانزیستور ، اندازه قبلی دو برابر است ، طراحان همچنین بدون افزایش قابل توجه مصرف انرژی ، سرعت کلاک را نیز بهبود بخشیدند.

به عنوان مثال ، Radeon RX 6800 XT دارای یک ساعت پایه و ساعت تقویت کننده به ترتیب 1825 و 2250 مگاهرتز برای TDP 300 وات است. همان معیارها برای Radeon RX 5700 XT 1605 مگاهرتز ، 1905 مگاهرتز و 225 وات بود. انویدیا سرعت آمپر را نیز با آمپر افزایش داد ، اما برخی از این موارد را می توان در استفاده از گره فرآیندی کوچکتر و کارآمد نسبت داد.

\

بررسی عملکرد هر وات کارتهای آمپر و RDNA 2 نشان داد که هر دو فروشنده پیشرفت های چشمگیری در این زمینه داشته اند ، اما AMD و TSMC کاملاً به موفقیت رسیده اند قابل توجه - مقایسه تفاوت بین Radeon RX 6800 و Radeon VII در نمودار بالا.

مورد دوم اولین همکاری GPU آنها با استفاده از گره N7 بود و در کمتر از دو سال ، آنها \ عملکرد در وات را 64 درصد افزایش داده ایم. این س begال را ایجاد می کند که اگر Nvidia برای وظایف تولیدی خود در TSMC می ماند ، آمپر GA102 می توانست چقدر بهتر باشد.

مدیریت کارخانه GPU چگونه همه چیز درون تراشه ها سازماندهی می شود

وقتی صحبت از پردازش می شود پردازش دستورالعمل ها و مدیریت انتقال داده ها ، هر دو آمپر و RDNA 2 از الگویی مشابه به نحوه سازماندهی همه چیز در داخل تراشه ها پیروی می کنند. توسعه دهندگان بازی برای ساختن همه تصاویر ، عناوین خود را با استفاده از API گرافیکی کدگذاری می کنند. ممکن است Direct3D ، OpenGL یا Vulkan باشد. این کتابخانه ها اساساً کتابخانه های نرم افزاری هستند که مملو از "کتاب \" قوانین ، ساختارها و دستورالعمل های ساده هستند.

درایورهایی که AMD و Nvidia برای تراشه های خود ایجاد می کنند اساساً به عنوان مترجم کار می کنند: تبدیل روال های صادر شده از طریق API به دنباله ای از عملیات که GPU می تواند درک کند. پس از آن ، کاملاً به سخت افزار بستگی دارد که امور را مدیریت کنید ، با توجه به اینکه ابتدا چه دستورالعملی انجام می شود ، چه بخشی از تراشه آنها را انجام می دهد و موارد دیگر. توسط مجموعه ای از واحدها اداره می شود که به طور منطقی در تراشه متمرکز شده است. در RDNA 2 ، سایه های گرافیکی و محاسباتی از طریق خطوط لوله جداگانه هدایت می شوند ، که دستورالعمل ها را به بقیه تراشه ها زمان بندی و ارسال می کنند. مورد اول Graphics Command Processor نامیده می شود ، دومی موتورهای محاسباتی ناهمزمان (به اختصار ACE) هستند.

\"

Nvidia فقط برای توصیف مجموعه واحدهای مدیریتی خود از یک نام استفاده می کند ، GigaThread Engine ، و در آمپر همان وظیفه را با RDNA 2 انجام می دهد ، اگرچه انویدیا در مورد نحوه مدیریت واقعی کارها زیاد نمی گوید. در کل ، این پردازنده های فرمان بیشتر شبیه یک مدیر تولید یک کارخانه عمل می کنند.

پردازنده های گرافیکی عملکرد خود را از انجام همه کارها به طور موازی می گیرند ، بنابراین سطح بعدی سازمان در سراسر تراشه کپی می شود. مطابق قیاس کارخانه ، این کار شبیه به شغلی است که دفتر مرکزی دارد ، اما مکانهای مختلفی برای تولید کالا دارد.

AMD از برچسب Shader Engine (SE) استفاده می کند ، در حالی که Nvidia آنها را Graphics می نامد خوشه های پردازش (GPC) - نام های مختلف ، نقش یکسان.

https://techbord.com Nvidia Ampere در مقابل AMD RDNA 2: Battle of the Architectures

دلیل این تقسیم بندی تراشه ساده است: واحدهای پردازش دستور فقط نمی توانند همه کارها را انجام دهند ، در نهایت خیلی بزرگ و پیچیده خواهد بود. بنابراین منطقی است که برخی از وظایف برنامه ریزی و سازمان را به پایین خط انتقال دهیم. این همچنین بدان معنی است که هر پارتیشن جداسازی می تواند کاری کاملاً مستقل از بخش های دیگر انجام دهد - بنابراین می توان یک دسته از سایه بانهای گرافیکی را مدیریت کرد ، در حالی که بقیه از سایه های محاسبه طولانی و پیچیده سنگ زنی می کنند.

در این مورد از RDNA 2 ، هر SE شامل مجموعه واحدهای عملکرد ثابت خود است: مدارهایی که برای انجام یک کار خاص طراحی شده اند ، که به طور معمول توسط یک برنامه نویس قابل تنظیم نیستند.

واحد تنظیم اولیه - رئوس را آماده می کند برای پردازش ، و همچنین تولید بیشتر (tessellation) و از بین بردن آنها Rasterizer - دنیای سه بعدی مثلث را به شبکه 2D پیکسل تبدیل می کند Render Outputs (ROPs) - پیکسل ها را می خواند ، می نویسد و مخلوط می کند

واحد راه اندازی اولیه با سرعت 1 مثلث در هر چرخه ساعت اجرا می شود. ممکن است خیلی به نظر نرسد اما فراموش نکنید که این تراشه ها در هر مکانی بین 1.8 تا 2.2 گیگاهرتز کار می کنند ، بنابراین تنظیمات اولیه نباید هرگز گلوگاه GPU باشند. از نظر آمپر ، واحد ابتدایی در رده بعدی سازمان یافت می شود و ما به زودی آن را پوشش خواهیم داد.

نه AMD و نه انویدیا در مورد رسترایزرهای خود زیاد صحبت نمی کنند. دومی آنها را موتورهای Raster می نامد ، ما می دانیم که آنها در هر چرخه ساعت 1 مثلث را کنترل می کنند و تعدادی پیکسل را بیرون می کشند ، اما به عنوان مثال دیگر هیچ اطلاعات دیگری برای تحویل وجود ندارد ، از جمله دقت زیر پیکسل آنها.

هر SE در تراشه Navi 21 دارای 4 بانک از 8 ROP است و در نتیجه 128 واحد خروجی ارائه می شود. GA102 انویدیا دارای 2 بانک 8 ROP در هر GPC است ، بنابراین تراشه کامل 112 واحد دارد. این ممکن است به نظر برسد که AMD در اینجا از مزیت برخوردار است ، زیرا ROP های بیشتر به معنی پردازش بیشتر پیکسل ها در هر ساعت است. اما چنین واحدهایی به دسترسی خوب به حافظه پنهان و حافظه محلی احتیاج دارند و ما در این مقاله در مورد این موارد بیشتر خواهیم گفت در حال حاضر ، بیایید به چگونگی تقسیم بندی بیشتر پارتیشن های SE / GPC ادامه دهیم.

https://techbord.com Nvidia Ampere در مقابل AMD RDNA 2: Battle of the Architectures \

موتورهای Shader AMD در آنچه که اصطلاح می کنند ، واحد های دو محاسبه هستند ( DCU ها) ، با تراشه Navi 21 که ده DCU در هر SE را نشان می دهد - توجه داشته باشید که در برخی اسناد ، آنها همچنین به عنوان پردازنده های گروه کار (WGP) طبقه بندی می شوند. در مورد Ampere و GA102 ، آنها Texture Processing Clusters (TPC) نامیده می شوند که هر GPU حاوی 6 TPC است. هر خوشه در طراحی انویدیا چیزی بنام موتور چند شکل را در خود جای داده است - اساساً واحدهای اولیه Ampere.

آنها نیز با سرعت 1 مثلث در ساعت کار می کنند ، و اگرچه Nvidia \ \' s GPU ها کمتر از AMD هستند ، آنها TPC های بسیار بیشتری نسبت به SE های Navi 21 دارند. بنابراین برای همان سرعت کلاک ، GA102 باید یک مزیت قابل توجه داشته باشد زیرا تراشه کامل دارای 42 واحد راه اندازی اولیه است ، در حالی که RDNA 2 جدید AMD فقط 4 واحد دارد. اما از آنجا که شش موتور TPC در هر موتور Raster وجود دارد ، GA102 به طور موثر 7 سیستم ابتدایی کامل ، به چهار Navi 21. از آنجا که ساعت اخیر 75٪ بالاتر از حالت قبلی نیست ، به نظر می رسد که Nvidia در اینجا با رسیدگی به هندسه حرف اول را می زند (البته هیچ بازی محدودیتی در این زمینه وجود ندارد).

رده آخر سازمان تراشه ها واحدهای محاسبه (CU) در RDNA 2 و چند پردازنده جریان (SM) در آمپر - خطوط تولید کارخانه های GPU ما هستند.

https://techbord.com Nvidia Ampere در مقابل AMD RDNA 2: Battle of the Architectures \

این مقدار زیادی گوشت و سبزیجات موجود در پای GPU است ، زیرا همه واحدهای کاملاً برنامه ریزی شده ای که برای پردازش گرافیک ، محاسبه و سایه های ردیابی اشعه استفاده می شوند را در خود جای داده است. همانطور که در تصویر بالا مشاهده می کنید ، هر یک قسمت بسیار کمی از فضای کلی قالب را اشغال می کند ، اما هنوز هم برای عملکرد کلی تراشه بسیار پیچیده و بسیار مهم هستند.

تاکنون ، در مورد چگونگی چیدمان و سازماندهی همه چیز در دو GPU ، هیچ معامله گر جدی وجود نداشته است - نامگذاری همه متفاوت است ، اما عملکرد آنها تقریباً یکسان است. و از آنجا که بسیاری از کارهای آنها توسط برنامه پذیری و انعطاف پذیری محدود می شود ، هر مزیتی که یکی نسبت به دیگری داشته باشد ، فقط به یک مقیاس بر می گردد ، یعنی کدام یک بیشتر از آن چیز خاص را دارد.

اما با CU و SM ، AMD و Nvidia رویکردهای متفاوتی را در مورد نحوه پردازش سایه بان ها اتخاذ می کنند. در برخی مناطق ، آنها اشتراکات زیادی دارند ، اما موارد دیگر بسیاری وجود دارد كه چنین نیست.

شمارش هسته ها به روش Nvidia

از آنجا كه آمپر قبل از RDNA 2 وارد حیات وحش شد ، ما \ ابتدا نگاهی به SM های انویدیا می اندازیم. در حال حاضر دیگر نمی توان تصاویر مربوط به قالب را مشاهده کرد ، زیرا آنها نمی توانند دقیقاً به ما بگویند چه چیزی درون آنهاست ، بنابراین اجازه دهید از یک نمودار سازمانی استفاده کنیم. قرار نیست که اینها نمایشی از چیدمان اجزای مختلف به طور فیزیکی در تراشه باشد ، فقط تعداد زیادی از هر نوع موجود است.

آنجا که تورینگ یک تغییر اساسی در نسخه قبلی دسک تاپ Pascal خود بود (از دست دادن مجموعه ای از واحد ها و ثبات های FP64 ، اما هسته های تانسوری و ردیابی اشعه را بدست می آورند) ، Ampere در واقع یک بروزرسانی نسبتاً ملایم است - حداقل در ارزش اسمی. هرچند که به بخش بازاریابی انویدیا مربوط می شد ، طراحی جدید تعداد هسته های CUDA را در هر SM بیش از دو برابر کرد.

\"

در تورینگ ، پردازنده های چند جریان شامل چهار پارتیشن هستند (که بعضاً بلوک های پردازش نامیده می شود) ، که در آن هر واحد 16x INT32 و 16x واحد منطقی FP32 را در خود جای داده است. این مدارها برای انجام عملیات ریاضی بسیار خاص روی مقادیر داده 32 بیتی طراحی شده اند: واحدهای INT با اعداد صحیح اداره می شوند و واحدهای FP روی اعداد شناور یعنی اعشار کار می کنند.

Nvidia بیان می کند که یک آمپر SM در کل 128 هسته CUDA دارد ، اما به عبارت دقیق ، این درست نیست - یا اگر باید به این تعداد پایبند بمانیم ، تورینگ نیز چنین کرد. واحدهای INT32 موجود در آن تراشه می توانند مقادیر شناور را کنترل کنند ، اما فقط در تعداد بسیار کمی عملیات ساده. از نظر آمپر ، انویدیا طیف وسیعی از عملیات ریاضیاتی را که برای پشتیبانی از سایر واحدهای FP32 پشتیبانی می کنند ، باز کرده است. این بدان معناست که تعداد کل هسته های CUDA در هر SM واقعاً تغییر نکرده است. اکنون فقط نیمی از آنها توانایی بیشتری دارند.

همه هسته های هر پارتیشن SM در هر زمان دستورالعمل یکسانی را پردازش می کنند ، اما از آنجا که واحدهای INT / FP می توانند به طور مستقل کار کنند ، Ampere SM می تواند حداکثر 128x محاسبه FP32 در هر چرخه یا 64x FP32 و 64x INT32 را با هم انجام دهد. در تورینگ ، این مورد اخیر بود.

بنابراین پردازنده گرافیکی جدید ، به طور بالقوه ، دو برابر خروجی FP32 نسبت به پردازنده قبلی خود دارد. برای محاسبه بارهای کاری ، به ویژه در برنامه های حرفه ای ، این یک گام بزرگ به جلو است. اما برای بازی ها ، مزایای آن بیشتر بی صدا خواهد شد. این برای اولین بار مشخص شد که ما برای اولین بار GeForce RTX 3080 را که از تراشه GA102 با 68 SMS فعال است ، آزمایش کردیم.

https://techbord.com Nvidia Ampere در مقابل AMD RDNA 2: Battle of the Architectures

علی رغم داشتن حداکثر توان FP32 121٪ نسبت به GeForce 2080 Ti ، این فقط به طور متوسط ​​31٪ افزایش در فریم است. نرخ پس چرا این همه توان محاسبه شده هدر می رود؟ پاسخ ساده این است که اینطور نیست ، اما بازی ها به طور مداوم دستورالعمل FP32 را اجرا نمی کنند.

وقتی انویدیا تورینگ را در سال 2018 منتشر کرد ، آنها اشاره کردند که به طور متوسط ​​حدود 36٪ از دستورالعمل پردازش شده توسط GPU شامل روالهای INT32 است. این محاسبات معمولاً برای کار کردن آدرسهای حافظه ، مقایسه بین دو مقدار و جریان / کنترل منطقی اجرا می شوند.

\"

بنابراین برای این عملیات ، ویژگی FP32 با نرخ دوگانه وجود ندارد بازی کنید ، زیرا واحدهای دارای دو مسیر داده فقط می توانند یک نقطه صحیح یا شناور را انجام دهند. و یک پارتیشن SM تنها در صورتی به این حالت تغییر حالت می دهد که همه 32 رشته که در آن زمان توسط آن اداره می شوند ، دارای همان عملکرد FP32 هستند که برای پردازش در یک ردیف قرار دارند. در همه موارد دیگر ، پارتیشن های موجود در آمپر دقیقاً مانند تورینگ کار می کنند.

این بدان معنی است که امثال GeForce RTX 3080 هنگام کار در INT + فقط 11٪ مزیت FP32 نسبت به 2080 Ti دارند. حالت FP به همین دلیل است که افزایش واقعی عملکرد در بازی ها به همان اندازه که ارقام خام نشان می دهد ، زیاد نیست.

سایر پیشرفت ها؟ تعداد هسته های Tensor در هر پارتیشن SM کمتر است ، اما هر یک از توانایی های بسیار بیشتری نسبت به Turing برخوردار هستند. این مدارها محاسبات بسیار خاصی را انجام می دهند (مانند ضرب دو مقدار FP16 و جمع کردن جواب با یک شماره FP16 دیگر) و هر هسته اکنون 32 مورد از این عملیات را در هر چرخه انجام می دهد.

آنها همچنین از ویژگی جدیدی به نام Sparsity Strained Strained Fine پشتیبانی می کنید و بدون جزئیات جزئیات آن ، اساساً به این معنی است که با هرس داده هایی که روی جواب تأثیر نمی گذارد ، می توان میزان ریاضی را دو برابر کرد. باز هم ، این خبر خوبی برای متخصصانی است که با شبکه های عصبی و هوش مصنوعی کار می کنند ، اما در حال حاضر هیچ مزیت قابل توجهی برای توسعه دهندگان بازی ندارد.

هسته های ردیابی اشعه نیز اصلاح شده اند: آنها اکنون می توانند به طور مستقل از هسته های CUDA کار می کنند ، بنابراین در حالی که آنها ریاضی تقاطع BVH یا تقاطع اشعه اولیه را انجام می دهند ، بقیه SM هنوز می توانند سایه پردازش کنند. بخشی از هسته هسته RT که می تواند آزمایش کند که یک اشعه با یک اولیه قطع می شود یا نه ، عملکرد نیز دو برابر شده است.

\"

RT Cores همچنین از سخت افزارهای اضافی برای کمک به کاربرد ردیابی اشعه استفاده می کند. در تاری تاری حرکت می کند ، اما این ویژگی در حال حاضر فقط از طریق API اختصاصی Nvidia Optix در معرض دید قرار می گیرد.

اصلاحات دیگری نیز وجود دارد ، اما رویکرد کلی به جای یک جدید بزرگ ، یکی از تکامل های معقول اما پایدار بوده است. طرح. اما با توجه به اینکه در وهله اول هیچ مشکلی در توانایی خام تورینگ وجود نداشت ، دیدن این موضوع تعجب آور نیست.

بنابراین درمورد AMD - چه کاری با محاسبه کرده اند واحدهای موجود در RDNA 2؟

ردیابی اشعه های خارق العاده

در مورد ارزش اسمی ، AMD در مورد واحدهای محاسبه تغییر زیادی نکرده است - آنها هنوز هم حاوی دو مجموعه واحد بردار SIMD32 ، واحد مقیاس SISD ، بافت ها هستند واحدها و مجموعه ای از حافظه نهان مختلف. برخی از تغییرات در مورد انواع داده ها و عملیات ریاضی مرتبط با آنها انجام شده است و ما در یک لحظه اطلاعات بیشتری در مورد آنها خواهیم داد. قابل توجه ترین تغییر برای مصرف کننده عمومی این است که AMD اکنون شتاب سخت افزاری را برای کارهای معمول در ردیابی اشعه ارائه می دهد.

این قسمت از CU چک های تقاطع ray-box یا ray-مثلث را انجام می دهد - همانند هسته های RT در آمپر. با این حال ، مورد دوم نیز الگوریتم های پیمایش BVH را تسریع می کند ، در حالی که در RDNA 2 این کار از طریق سایه بان محاسبه شده با استفاده از واحد های SIMD 32 انجام می شود.

\"

مهم نیست که چند هسته سایه بان وجود داشته باشد یا چه اندازه آنها بالا باشد نرخ کلاک این است که مدارهای سفارشی که فقط برای انجام یک کار طراحی شده اند همیشه بهتر از یک رویکرد کلی هستند. به همین دلیل است که GPU ها در وهله اول اختراع شده اند: همه کارها در جهان با استفاده از CPU قابل انجام است ، اما ماهیت کلی آنها آنها را برای این کار نامناسب می کند.

واحدهای RA در کنار پردازنده های بافت هستند ، زیرا آنها در واقع بخشی از همان ساختار هستند. در جولای 2019 ، ما در مورد حق ثبت اختراع ثبت شده توسط AMD گزارش کردیم که جزئیات آن را با استفاده از روش "ترکیبی" برای مدیریت الگوریتم های کلیدی در ردیابی اشعه توضیح داد ...

در حالی که این سیستم انعطاف پذیری بیشتری را ایجاد می کند و نیازی به استفاده از قسمتهایی از قالب ندارد که در هنگام بارگیری ردیابی اشعه کاری انجام ندهد ، اما اولین اجرای AMD دارای این اشکال است. نکته قابل توجه این است که پردازنده های بافت فقط می توانند عملیات مربوط به بافت ها یا تقاطع های اشعه ای ابتدایی را در هر زمان انجام دهند.

با توجه به اینکه هسته های RT انویدیا اکنون کاملاً مستقل از بقیه کار می کنند SM ، به نظر می رسد که این امر باعث می شود آمپر در مقایسه با RNDA 2 ، در مورد سنگ زنی از طریق ساختارهای شتاب و آزمایش های تقاطع مورد نیاز در ردیابی اشعه ، یک برتری مشخص داشته باشد.

اگرچه ما فقط به طور خلاصه بررسی کردیم عملکرد ردیابی اشعه در آخرین کارت های گرافیک AMD ، تاکنون متوجه شدیم که تأثیر استفاده از ردیابی اشعه بسیار به بازی انجام شده بستگی دارد.

\"

در Gears 5 ، به عنوان مثال ، Radeon RX 6800 (که از نوع 60 CU پردازنده گرافیکی Navi 21 استفاده می کند) فقط 17٪ نرخ فریم گرفت ، در حالی که در Shadow of the Tomb Raider ، این میانگین از دست دادن 52٪ بود. در مقایسه ، RTX 3080 انویدیا (با استفاده از 68 SM GA102) در این دو بازی به طور متوسط ​​افت فریم 23٪ و 40٪ را شاهد بود.

تحلیل دقیق تر ردیابی اشعه مورد نیاز است برای گفتن هرچه بیشتر در مورد پیاده سازی AMD ، اما به عنوان اولین تکرار این فناوری ، به نظر می رسد رقابتی است اما نسبت به برنامه ای که ردیابی اشعه را انجام می دهد حساس است.

همانطور که قبلاً ذکر شد ، محاسبه اکنون واحدهای موجود در RDNA 2 از انواع داده های بیشتری پشتیبانی می کنند. مهمترین موارد شامل داده های با دقت کم مانند INT4 و INT8 است. این موارد برای عملیات تنسوری در الگوریتم های یادگیری ماشین استفاده می شوند و اگرچه AMD دارای معماری جداگانه ای (CDNA) برای هوش مصنوعی و مراکز داده است ، این به روزرسانی برای استفاده با DirectML است.

https://techbord.com Nvidia Ampere در مقابل AMD RDNA 2: Battle of the Architectures \

این API یک است اضافه شدن اخیر به خانواده Microsoft DirectX 12 و ترکیبی از سخت افزار و نرم افزار ، تسریع بهتری را برای denoising در الگوریتم های ردیابی اشعه و ارتقاsc زمانی فراهم می کند. در مورد مورد دوم ، انویدیا البته موارد خاص خود را دارد که DLSS نامیده می شود. سیستم آنها برای انجام بخشی از محاسبات از هسته های Tensor در SM استفاده می کند ، اما با توجه به اینکه می توان از طریق DirectML فرآیند مشابهی ایجاد کرد ، به نظر می رسد که این واحدها تا حدودی زائد هستند. با این حال ، هم در تورینگ و هم در آمپر ، هسته های تنسور همچنین تمام عملیات ریاضی را که شامل فرمت های داده FP16 است انجام می دهند.

با RDNA 2 ، چنین محاسباتی با استفاده از واحدهای سایه بان ، با استفاده از قالب های داده ای بسته بندی شده ، یعنی هر 32- ثبات بردار بیتی دارای دو 16 بیتی است. بنابراین کدام روش بهتر است؟ AMD واحدهای SIMD32 خود را به عنوان پردازنده بردار برچسب گذاری می کند ، زیرا آنها یک دستورالعمل برای مقادیر مختلف داده صادر می کنند.

هر واحد برداری شامل 32 پردازشگر جریان است و از آنجا که هر یک از اینها فقط روی یک قطعه داده کار می کنند ، عملیات واقعی خود دارای ماهیت مقیاسی هستند. این اساساً همان پارتیشن SM در Ampere است ، جایی که هر بلوک پردازشی همچنین دارای یک دستورالعمل در مورد 32 مقدار داده است.

اما جایی که کل SM در طراحی Nvidia می تواند تا 128 FP32 FMA را پردازش کند محاسبات در هر چرخه (جمع شدن ضرب جمع شده) ، یک واحد محاسبه شده RDNA 2 فقط 64 انجام می دهد. استفاده از FP16 باعث می شود 128 FMA در هر چرخه ، که همان هسته های تنسور آمپر هنگام انجام ریاضیات استاندارد FP16 است.

SM های Nvidia می توانند دستورالعمل هایی را برای کنترل مقادیر صحیح و شناور همزمان (به عنوان مثال 64 FP32 و 64 INT32) پردازش کنند و دارای واحدهای مستقلی برای عملیات FP16 ، ریاضیات تانسوری و روال ردیابی اشعه هستند. CU های AMD بیشترین بار کاری را در واحد های SIMD32 انجام می دهند ، اگرچه واحدهای مقیاس جداگانه ای دارند که از ریاضیات عدد صحیح ساده پشتیبانی می کنند.

بنابراین به نظر می رسد که در اینجا آمپر دارای برتری است: GA102 دارای SMA های بیشتری نسبت به Navi 21 دارای CU هستند و در صورت رسیدن به حداکثر توان عملیاتی ، انعطاف پذیری و ویژگی های ارائه شده ، آنها یک مشت بزرگتر را بسته بندی می کنند. اما AMD کارت ترفند نسبتاً زیبایی در آستین خود دارد.

var googletag = googletag || {} ؛ googletag.cmd = googletag.cmd || [] googletag.cmd.push (تابع () {googletag.pubads (). نمایش (\ \'/ 8095840 / .2_A.35940.4_techbord.com_tier1 \\' ، [300 ، 250] ، \ \'div-pg-ad-1569574001-2 \ \')؛})؛ تغذیه سیستم حافظه گرسنگی گرسنه گرسنه ، حافظه نهان چند سطحی

داشتن یک پردازنده گرافیکی با هزاران واحد منطقی ، که همه راه ریاضیات فانتزی را در خود جای داده اند ، همه خوب و خوب است - اما اگر آنها در دریا سر و صدا کنند ، با دستورالعمل ها و داده های مورد نیاز نمی توان سریعاً تغذیه کرد. هر دوی این طرح ها دارای تعداد زیادی حافظه پنهان در چند سطح هستند و دارای پهنای باند بسیار زیادی هستند.

بیایید ابتدا نگاهی به Ampere بیاندازیم. به طور کلی تغییرات چشمگیری در داخل ایجاد شده است. مقدار حافظه پنهان سطح 2 50٪ افزایش یافته است (Turing TU102 به ترتیب 4096 کیلوبایت) و حافظه پنهان سطح 1 در هر SM هر دو برابر دو برابر شده است.

انویدیا آمپر در مقابل AMD RDNA 2: نبرد معماری ها
features/انویدیا-آمپر-در-مقابل-amd-rdna-2-نبرد-معماری.html

آخرین مطالب سایت
techbord.com AMD در رویداد 3 مارس از کارت بعدی Radeon RX 6000 رونمایی خواهد کرد
techbord.com هنری کاویل فرمانده شپارد است؟ پست اینستاگرام به پروژه مخفی Mass Effect اشاره دارد
techbord.com انویدیا می گوید 100 تا 300 میلیون دلار از درآمد Q4 از استخراج کنندگان رمزنگاری حاصل شده است
techbord.com آزمایشگاه پیشرانش جت (JPL) تخم مرغ عید پاک را در چتر نجات مریخ نورد ناسا پایداری پنهان کرد
techbord.com سونی قصد دارد موارد انحصاری PlayStation بیشتری را از جمله Days Gone به کامپیوتر وارد کند
techbord.com ثبت اختراع EA روش دور زدن زمان بارگیری و نصب بازی را مشخص می کند
copyright 2020 techbord.com
تمامی حقوق برای وبسایت تک بورد محفوظ است. استفاده از مطالب فقط با ذکر نام و لینک به صفحه منبع امکان پذیر است.