/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F20cfe5a58bd4b94c6748bad9bfbd43c7.jpg)
Огляд архітектури AMD RDNA 4: червоний удар
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Ff36688f5252627a7b5ba461d99d241b6.png)
В попередніх статтях ми розглядали архітектури відеокарт NVIDIA RTX 3000 та 4000,RTX 5000 Blackwell. Навіть встигли оглянути Intel Xe 2 Battlemage, але залишався ще один «червоний» конкурент. Тому настав час закрити цей Ґештальт оглядів GPU новітньою архітектурою Radeon New Architecture четвертого покоління (RDNA 4) від AMD.
Архітектура RDNA 4
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F4a11679e1bcea533553c867dcd2463ff.png)
Архітектуру RDNA AMD використовує з 2019 року разом з випуском відеокарт серії RX 5700. Як ви могли помітити, перше покоління RDNA було зроблено на монолітному кристалі. Друге та третє покоління, як і сучасні процесори AMD Ryzen, використовувало чіплетну структуру кристалу: кожен з елементів якої (відеопроцесор чи його елементи, памʼять) могли бути на різних техпроцесах. З виходом RDNA 4 AMD повернулося до монолітного компонування. Чіткі причини повернення точно невідомі. Чи будуть нові процесори AMD також монолітними покаже час.
Як заявляє AMD, нова архітектура забезпечує кращу підтримку Ray та Path Tracing, компресію даних в памʼяті, допомогу машинного навчання (Machine Learning) для рендерингу зображень та покращені програмовані шейдери.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fffb6540046d7a044cb6f786f4eac50ad.png)
Блок Обчислень (Compute Unit, CU) являється головною частиною для обчислень графіки та АІ у відеокартах AMD Radeon вже багато років. Візуально порівнюючи з конкурентами, спочатку все ще більш незрозуміло, ніж в Intel.
Подвійні векторні блоки SIMD32 (Dual SIMD Vector Units) складаються не з двох, як можна було подумати, а з трьох різних частин: два ALU (Arithmetic Logic Units), кожен з яких оброблює FMA або FMA/INT значення, та один TLU (Transcendental Logic Unit) для взаємодії з трансцедентниими числами. Яскравим всім відомим прикладом таких чисел є число π (Пі).
NVIDIA в RTX 5000 обʼєднала схожі блоки за функціональністю в один.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fd8bd177336984af54a52e0aca72ccfbb.png)
Скалярний блок складається з таких елементів: реєстр збережених файлів та особливих реєстрів, внутрішній ALU для математичних операцій, блок обчислення нелінійних функцій з плаваючою та фіксованою комою, механізм перетворення типів даних. З новою архітектурою, Скалярний блок отримав підтримку операцій з типом Float32.
Цей файл може зацікавити деяких експертів-коментаторів. Або просто для підвищення загального розуміння.
Кеш (виділив червоним) розподілений між двома структурами: Скалярний кеш (16 КБ) та Шейдерний кеш для виконання інструкцій (32 КБ). І забігаючи наперед, кеш також буває різний та отримав додаткові покращення: третє покоління Infinite Cache на 64 МБ, L2 кеш 8 МБ, а сукупний кеш CU став 2 МБ.
Планувальник (виділив синім) розподіляє навантаження між блоками, що описані вище та нижче, отримав розділені та іменовані бар’єри, прискорення операцій розливу/заповнення та покращену попередню вибірку інструкцій.
Додатково було покращено роботу з памʼяттю (зменшення затримок в чергах, що підвищить продуктивність для операцій з Трасуванням променів), додано динамічний алокатор реєстру (призводить до кращої обробки затримок в пам’яті з потенційним підвищенням продуктивності всього спільного ядра) та збільшено ефективність самого CU.
У NVIDIA, як і в Intel, існує спеціальний блок сортування та відправки шейдерів для кращого виконання та локалізації даних. Відповідно, у NVIDIA за це відповідає Перевпорядкування виконання шейдерів (Shader Execution Reordering; з архітектурою Blackwell отримав оновлення 2.0), а в Intel — блок Сортування потоків (Thread Sorting Unit). Тут постає питання, на яке не можу дату точну відповідь: «Чи описані технології AMD замінюють аналоги від конкурентів?»
А ось відповідь на: «Який варіант продуктивніше?», можна дати відповідь. По загальній продуктивності — перемагає NVIDIA.
В Прискорювачі Трасування променів (Raytracing Accelerator) було вдвічі збільшено кількість блоків Перетину променів (Ray Intersection): Боксових та Трикутникових перетинів (давно знайомі Box і Triangle Intersections); покращено компресію розміру BVH (на 60% порівняно з RDNA 3); додана технологія Орієнтованих Обмежувальних рамок (Oriented Bounding Boxes, зменшується кількість перетину променів всередині графічних 3D об’єктів). Загалом, обробка Трасування променів стала у два рази швидше, порівняно з RDNA 3.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Ff9f31171485df6943b3b7ee0b8c2cd46.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F93fcd665e0980a8309dfe7483cc4137e.png)
AI Прискорювач (AI Accelerator) відповідає за роботу зі штучним інтелектом. Для цього йому додали більшу підтримку типів даних та прискорили роботу з вже відомими: у два рази з FP16 та в чотири рази зі Структурованою Розрідженістю (Sparcity); в чотири рази з INT8 та у вісім разів з Розрідженістю. Звісно, додалась підтримка FP8 та ML Super Resolution.
Завдяки цьому блоку виконується обробка нового FSR 4. Ну що ж, логічне пояснення для відсутності підтримки старих відеокарт. Чи ні? Більше про FSR у розділі нижче.
Один CU мало що дасть, тому AMD «під одним крилом» NAVI 48 обʼєднало їх аж 64 одиниць. AMD використовує термін Шейдерні механізми (Shader Engines) для обʼєднання блоків CU. Чіп зроблений на заводах TSMC по технології 4 нм, має 53,9 мільярда транзисторів, а площа кристала складає 356,5 мм2. Для порівняння, площа чіпа для RTX 5090 (GB202) складає 750 мм2, а RTX 5080 / 5070 TI (GB203) — 378 мм2. А RTX 5070 ще менше і складає 263 мм2.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F9bc62267a1f64833c6c78026b15bb418.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fd307e3f598ac082a31aed5b4d5c84f73.png)
Чіп сам себе не продасть, тому AMD постачає його у дві відеокарти нового покоління. Перша це флагманська (планів з випуску кращого рішення не було чутно) AMD Radeon RX 9070 XT з повноцінним NAVI 48 та RX 9070 з одним вимкненими Shader Engine (8 CU). Якщо є бажання можете оглянути редакційний огляд Asus AMD Radeon RX 9070 XT 16GB Prime OC та Gigabyte Radeon RX 9070 GAMING OC. Дивлячись відео нижче стає зрозумілим, що AMD на одне покоління позаду NVIDIA по роботі з Трасуванням променів.
Наведу таблицю порівнянь характеристик двох поколінь відеокарт AMD: RDNA 3 та RDNA 4. Порівнюючи їх ми бачимо схожу ситуацію, що з Intel – чіп став менше, кількість транзисторів також, а продуктивність залишилась на тому ж рівні чи навіть трішки зросла. Виглядає, що AMD з Intel на пару взяла та використала «заборонену вуличну магію Оптимізації».
RX 7900 XTX | RX 7900 XT | RX 9070 XT | RX 9070 | RX 7900 GRE | |
Чіп | NAVI 31 | NAVI 31 | NAVI 48 | NAVI 48 | NAVI 31 |
Розмір чіпа | 529 мм2 | 529 мм2 | 357 мм2 | 357 мм2 | 529 мм2 |
К-ість транзисторів | 57,7 мільйонів | 57,7 мільйонів | 53,9 мільйонів | 53,9 мільйонів | 57,7 мільйонів |
CU | 96 | 84 | 64 | 56 | 80 |
Ray Accelerators | 96 | 84 | 64 | 56 | 80 |
AI Accelerators | 192 | 168 | 128 | 112 | 160 |
Частота | 2500 МГц | 2400 МГц | 2970 МГц | 2520 МГц | 2245 МГц |
TDP | 355 Вт | 315 Вт | 304 Вт | 220 Вт | 260 Вт |
Відеопам’ять | 24 ГБ GDDR6 | 20 ГБ GDDR6 | 16 ГБ GDDR6 | 16 ГБ GDDR6 | 16 ГБ GDDR6 |
Пропускна здатність відеопам’яті | 960 ГБ/с | 800 ГБ/с | 640 ГБ/с | 640 ГБ/с | 576 ГБ/с |
Швидкість відеопам’яті | 20 Гбіт/с | 20 Гбіт/с | 20 Гбіт/с | 20 Гбіт/с | 18 Гбіт/с |
Ігри іграми, а що з робочими програмами? В редакційному огляді спробували рендеринг тестового інтерʼєру в Realistic Interior Lighting. Результат невтішний, адже RX 9070 знадобилося на 64% більше часу, ніж RTX 5070 Ti. Також їй не вдалося попрацювати зі звичними офлайновими нейронними генераторами зображень. Банальною причиною неробочого стану застосунків є відсутність підтримки розробників та початкового введення нових технологій машинного навчання від AMD. Схоже на те, повноцінний запуск продуктивного ML зʼявився лише у цьому RX 9000 поколінні відеокарт.
AMD FidelityFX Super Resolution (FSR) 4
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Faa7ee26813bee6d4b4d0acd8719bd22d.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fd28904d6b09682a373ecec896a0e739c.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F2b69fe933ffc6c70fca7e7000f117f69.png)
Після NVIDIA, AMD зробила свій апскейлер ще в далекому 2021 році. Кожен рік технологія покращувалась та поступово збільшувала якість масштабованості зображення на моніторах користувачів. І за ці чотири роки FSR додали в понад 400 ігор! Новий FSR 4 підтримується вже в 30+ відомих іграх та буде ще в 70+ протягом цього року. Це дійсно неймовірний результат, який потрібно поважати.
Раз згадали FSR 4 Super Resolution, то необхідно розповісти про принцип роботи, який розробила AMD. Для кожної гри будується своя ML модель, яка спочатку оптимізується на продуктивних серверних прискорювачах AMD Instinct. Правильно, сама AMD робить це.
Після цього зібрану модель відправляють вам на відеокарту. Розробникам залишається додати підтримку FSR 4 в коді, щоб драйвер відеокарт зміг застосовувати ту отриману модель для кожної окремої гри.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fde4142bc4e665ccbc9aa26b22e82d295.png)
З презентацією нового покоління архітектури RDNA 4 показали й нову четверту версію FSR. Але геймери не зрозуміли одного моменту — відсутність підтримки старих відеокарт, навіть RDNA 3. Якщо ж пропустили попередній розділ, то коротко поясню.
На RDNA 3 у старіших поколіннях занадто слабка підтримка ML моделей, які застосовуються для всіляких нейронних мереж і т.д. Поки NVIDIA розвивала цей напрямок і захоплювала ринок, AMD покращувала старі технології. Однак як показав час, більшість користувачів хочуть бачити високий fps з високим рівнем графіки, а також, щоб сама гра була цікава, але це питання не до розробників відеокарт.
АMD тільки відкрила для себе шлях нейронного рендерингу, про який писали раніше.
Проте підтримку ігор з не-AI масштабування FSR 3.1 не забирають. Обидві версії повинні доповнювати один одного: якщо у користувача стара відеокарта, то він матиме FSR 3.1, якщо ж нова RX 9000 — FSR 4.
AMD HYPR-RX
NVIDIA для своїх технологій масштабування має назву DLSS, в яку багато чого додали, через що на початку всі плуталися. Intel створила свій аналог у вигляді XeSS 2, в якому також дещо заплутала користувачів. Добре, що AMD зробила правильний вибір і свої технології назвала окремою назвою HYPR-RX. Вона включає:
- AMD FSR — масштабування зображення;
- AMD Fluid Motion Frames 2 — генератор кадрів.
- AMD Anti-Lag 2 — зменшення затримок при використанні клавіатури, миші чи геймпаду;
- AMD Boost — масштабування для відеокарт RX 6000;
- AMD Super Resolution — ще одна технологія масштабування, тільки для RX 5000;
Зі слайду стає зрозуміло, що HYPR-RX – пункт в меню драйверів Adrenaline для швидкого запуску необхідних користувачу покращень. Підтримується на відеокартах RX 5000, RX 6000, RX 7000, RX 9070 та гібридних APU AMD Ryzen AI 300. Звісно, потім додадуть підтримку нових RX 9060 (якщо вони взагалі будуть). Пройдемо по вбудованим технологіям (про FSR вже розповіли вище).
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F393a4697d6ecc0f94424d226f56d650d.png)
Основна задача AMD Fluid Motion Frames (FMG) 2 полягає у генеруванні кадрів. Повне увімкнення дозволяє підвищити fps у понад три рази. Тобто, один-два кадри будуть генеруватися. Покращена версія FMG 2.1 повинна точно працювати на нових відеокартах RX 9000, а ось щодо попередніх поколінь існують певні сумніви.
AMD Anti-Lag 2 дозволяє знизити затримку вводу з миші, клавіатури чи геймпаду від 20% у таких іграх, як Counter Strike 2, Apex Legends та, неочікувано, в Ghost of Tsushima.Незабаром буде ще дещо.
Загалом в AMD зараз стабільно добрий стан справ. Процесори дуже популярні як для звичайного користувача, так і особливо для геймерів. Консолі Sony PlayStation явно будуть залишатися на AMD. З Xbox питання залишається відкритим (AMD чи ARM), проте Microsoft завжди була на своїй хвилі.
З ринком відеокарт зараз не все гаразд, причому у всіх гравців на ринку. NVIDIA явно завищує ціни на нові відеокарти, бо основний дохід компанія отримує від власних розроблених серверних рішень для AI. Поки існують бізнес-клієнти, NVIDIA покриватиме цей ринок своєю продукцією. А геймери отримуватимуть залишки, бо однакові процесори застосовуються для обох ринків.
AMD наче намагається загравати з геймерами, проте існує рівно один недолік — технологічний. По-перше, відставання на одне покоління в справах Трасування променів. По-друге, технологія FSR 4 повинна вже бути на рівні нового DLSS 4 з новою моделлю Transformer, проте схоже, що таки ще DLSS 3. По-третє, якби AMD показала, що RX 9070 XT влегку обходила RTX 5080 без трасування в півтора-два рази дешевшу ціну — питань 0. Чи хоча була б сильнішою в чистому нативі 4К за RTX 5070 Ti завжди в тестах — питань не має. А так AMD веде битву «на raytracing полі ворога».
Ну що ж. Зараз AMD потрібно більше вкладати кошти у розробників робочого програмного забезпечення (рендеринг, нейронні мережі) для збільшення зацікавленості потенційних покупців. Не тільки ігри повинні добре йти, а ще й застосунки. Користувачі навряд бажають купляти аж дві відеокарти: одна для ігор, а інша — софт.
За рік-два чекаємо нового покоління консолей, з новим аналогом PSSR 2 для Sony з покращеним масштабуванням Super Resolution та новим генератором кадрів. Ну і про нові «портативки» з APU Strix Halo не забуваємо.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Ff36688f5252627a7b5ba461d99d241b6.png)

