/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F1d74e20ec6a4670e898304c96f18793e.jpg)
Обзор архитектуры AMD RDNA 4: красный удар: красный удар
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F9f2d4a59747800c02cd28df63a6042db.png)
В предыдущих статьях мы рассматривали архитектуры видеокарт NVIDIA RTX 3000 и 4000, RTX 5000 Blackwell. Даже успели осмотреть Intel Xe 2 Battlemageно оставался еще один «красный» конкурент. Поэтому пришло время закрыть этот гештальт обзоров GPU новейшей архитектурой Radeon New Architecture четвертого поколения (RDNA 4) от AMD.
Архитектура RDNA 4
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F38fc9ff7fbfcbc67812e0863e41fd982.png)
Архитектуру RDNA AMD использует с 2019 года вместе с выпуском видеокарт серии RX 5700. Как вы могли заметить, первое поколение RDNA было сделано на монолитном кристалле. Второе и третье поколение, как и современные процессоры AMD Ryzen, использовало чиплетную структуру кристалла: каждый из элементов которой (видеопроцессор или его элементы, память) могли быть на разных техпроцессах. С выходом RDNA 4 AMD вернулось к монолитной компоновке. Четкие причины возвращения точно неизвестны. Будут ли новые процессоры AMD также монолитными покажет время.
Как заявляет AMD, новая архитектура обеспечивает лучшую поддержку Ray и Path Tracing, компрессию данных в памяти, помощь машинного обучения (Machine Learning) для рендеринга изображений и улучшенные программируемые шейдеры.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F78028ad59ffe0f71288eadf4a683aaf9.png)
Блок Вычислений (Compute Unit, CU) является главной частью для вычислений графики и АИ в видеокартах AMD Radeon уже много лет. Визуально сравнивая с конкурентами, сначала все еще более непонятно, чем в Intel.
Двойные векторные блоки SIMD32 (Dual SIMD Vector Units) состоят не из двух, как можно было подумать, а из трех разных частей: два ALU (Arithmetic Logic Units), каждый из которых обрабатывает FMA или FMA/INT значения, и один TLU (Transcendental Logic Unit) для взаимодействия с трансцедентными числами. Ярким всем известным примером таких чисел является число π (Пи).
NVIDIA в RTX 5000 объединила похожие блоки по функциональности в один.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Ff9e394474f234aba3d67c2aea77fbaa6.png)
Скалярный блок состоит из таких элементов: реестр хранимых файлов и особых реестров, внутренний ALU для математических операций, блок вычисления нелинейных функций с плавающей и фиксированной запятой, механизм преобразования типов данных. С новой архитектурой, Скалярный блок получил поддержку операций с типом Float32.
Этот файл может заинтересовать некоторых экспертов-комментаторов. Или просто для повышения общего понимания.
Кэш (выделил красным) распределен между двумя структурами: Скалярный кэш (16 КБ) и Шейдерный кэш для выполнения инструкций (32 КБ). И забегая вперед, кэш также бывает разный и получил дополнительные улучшения: третье поколение Infinite Cache на 64 МБ, L2 кэш 8 МБ, а совокупный кэш CU стал 2 МБ.
Планировщик (выделен синим) распределяет нагрузку между блоками, описанными выше и ниже, получил разделенные и именованные барьеры, ускорение операций розлива/заполнения и улучшенную предварительную выборку инструкций.
Дополнительно была улучшена работа с памятью (уменьшение задержек в очередях, что повысит производительность для операций с Трассировкой лучей), добавлен динамический алокатор реестра (приводит к лучшей обработке задержек в памяти с потенциальным повышением производительности всего общего ядра) и увеличена эффективность самого CU.
У NVIDIA, как и у Intel, существует специальный блок сортировки и отправки шейдеров для лучшего выполнения и локализации данных. Соответственно, в NVIDIA за это отвечает Переупорядочение выполнения шейдеров (Shader Execution Reordering; с архитектурой Blackwell получил обновление 2.0), а в Intel — блок Сортировки потоков (Thread Sorting Unit). Здесь возникает вопрос, на который не могу дать точный ответ: «Заменяют ли описанные технологии AMD аналоги от конкурентов?»
А вот ответ на: «Какой вариант производительнее?», можно дать ответ. По общей производительности — побеждает NVIDIA.
В Ускорителе Трассировки лучей (Raytracing Accelerator) было вдвое увеличено количество блоков Пересечения лучей (Ray Intersection): Боксовых и Треугольных пересечений (давно знакомые Box и Triangle Intersections); улучшено компрессию размера BVH (на 60% по сравнению с RDNA 3); добавлена технология Ориентированных Ограничительных рамок (Oriented Bounding Boxes, уменьшается количество пересечения лучей внутри графических 3D объектов). В общем, обработка Трассировки лучей стала в два раза быстрее, по сравнению с RDNA 3.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F46d5c80aab5e98eb0a7646279105d1da.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Ffeaae6bd497a499cfa674dedd617f18c.png)
AI Ускоритель (AI Accelerator) отвечает за работу с искусственным интеллектом. Для этого ему добавили большую поддержку типов данных и ускорили работу с уже известными: в два раза с FP16 и в четыре раза со Структурированной Разреженностью (Sparcity); в четыре раза с INT8 и в восемь раз с Разреженностью. Конечно, добавилась поддержка FP8 и ML Super Resolution.
Благодаря этому блоку выполняется обработка нового FSR 4. Ну что ж, логичное объяснение для отсутствия поддержки старых видеокарт. Или нет? Больше о FSR в разделе ниже.
Один CU мало что даст, поэтому AMD «под одним крылом» NAVI 48 объединило их аж 64 единицы. AMD использует термин Шейдерные механизмы (Shader Engines) для объединения блоков CU. Чип сделан на заводах TSMC по технологии 4 нм, имеет 53,9 миллиарда транзисторов, а площадь кристалла составляет 356,5 мм2. Для сравнения, площадь чипа для RTX 5090 (GB202) составляет 750 мм2, а RTX 5080/5070 TI (GB203) — 378 мм2. А RTX 5070 еще меньше и составляет 263 мм2.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F9cbfc7e0991d89f579366f30b3748d72.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fa5aa29b9528c8359360469eb86ca70f7.png)
Чип сам себя не продаст, поэтому AMD поставляет его в две видеокарты нового поколения. Первая это флагманская (планов по выпуску лучшего решения не было слышно) AMD Radeon RX 9070 XT с полноценным NAVI 48 и RX 9070 с одним выключенными Shader Engine (8 CU). При желании можете осмотреть редакционный обзор Asus AMD Radeon RX 9070 XT 16GB Prime OC и Gigabyte Radeon RX 9070 GAMING OC. Смотря видео ниже становится понятным, что AMD на одно поколение позади NVIDIA по работе с Трассировкой лучей.
Приведу таблицу сравнений характеристик двух поколений видеокарт AMD: RDNA 3 и RDNA 4. Сравнивая их мы видим похожую ситуацию, что с Intel — чип стал меньше, количество транзисторов тоже, а производительность осталась на том же уровне или даже немного выросла. Похоже, что AMD с Intel на пару взяла и использовала «запрещенную уличный магию Оптимизации».
RX 7900 XTX | RX 7900 XT | RX 9070 XT | RX 9070 | RX 7900 GRE | |
Чип | NAVI 31 | NAVI 31 | NAVI 48 | NAVI 48 | NAVI 31 |
Размер чипа | 529 мм2 | 529 мм2 | 357 мм2 | 357 мм2 | 529 мм2 |
К-во транзисторов | 57,7 миллионов | 57,7 миллионов | 53,9 миллионов | 53,9 миллионов | 57,7 миллионов |
CU | 96 | 84 | 64 | 56 | 80 |
Ray Accelerators | 96 | 84 | 64 | 56 | 80 |
AI Accelerators | 192 | 168 | 128 | 112 | 160 |
Частота | 2500 МГц | 2400 МГц | 2970 МГц | 2520 МГц | 2245 МГц |
TDP | 355 Вт | 315 Вт | 304 Вт | 220 Вт | 260 Вт |
Видеопамять | 24 ГБ GDDR6 | 20 ГБ GDDR6 | 16 ГБ GDDR6 | 16 ГБ GDDR6 | 16 ГБ GDDR6 |
Пропускная способность видеопамяти | 960 ГБ/с | 800 ГБ/с | 640 ГБ/с | 640 ГБ/с | 576 ГБ/с |
Скорость видеопамяти | 20 Гбит/с | 20 Гбит/с | 20 Гбит/с | 20 Гбит/с | 18 Гбит/с |
Игры играми, а что с рабочими программами? В редакционном обзоре попробовали рендеринг тестового интерьера в Realistic Interior Lighting. Результат неутешительный, ведь RX 9070 потребовалось на 64% больше времени, чем RTX 5070 Ti. Также ей не удалось поработать с привычными офлайновыми нейронными генераторами изображений. Банальной причиной нерабочего состояния приложений является отсутствие поддержки разработчиков и начального внедрения новых технологий машинного обучения от AMD. Похоже, полноценный запуск производительного ML появился только в этом RX 9000 поколении видеокарт.
AMD FidelityFX Super Resolution (FSR) 4
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F8fc879281e39db5f30ec0d3531646a33.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F9ea21f52d952914ec1d26282b53016c7.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fe113ef7d3f937354c3bf25d75fefeeaf.png)
После NVIDIA, AMD сделала свой апскейлер еще в далеком 2021 году. Каждый год технология улучшалась и постепенно увеличивала качество масштабируемости изображения на мониторах пользователей. И за эти четыре года FSR добавили в более 400 игр! Новый FSR 4 поддерживается уже в 30+ известных играх и будет еще в 70+ в течение этого года. Это действительно невероятный результат, который нужно уважать.
Раз упомянули FSR 4 Super Resolution, то необходимо рассказать о принципе работы, который разработала AMD. Для каждой игры строится своя ML модель, которая изначально оптимизируется на производительных серверных ускорителях AMD Instinct. Правильно, сама AMD делает это.
После этого собранную модель отправляют вам на видеокарту. Разработчикам остается добавить поддержку FSR 4 в коде, чтобы драйвер видеокарт смог применять ту полученную модель для каждой отдельной игры.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F5889e28bf67785c29f58dbc5a93d3793.png)
С презентацией нового поколения архитектуры RDNA 4 показали и новую четвертую версию FSR. Но геймеры не поняли одного момента — отсутствие поддержки старых видеокарт, даже RDNA 3. Если же пропустили предыдущий раздел, то кратко объясню.
На RDNA 3 в старых поколениях слишком слабая поддержка ML моделей, которые применяются для всевозможных нейронных сетей и т.д. Пока NVIDIA развивала это направление и захватывала рынок, AMD улучшала старые технологии. Однако как показало время, большинство пользователей хотят видеть высокий fps с высоким уровнем графики, а также, чтобы сама игра была интересна, но это вопрос не к разработчикам видеокарт.
АMD только открыла для себя путь нейронного рендеринга, о котором писали ранее.
Тем не менее поддержку игр с не-AI масштабированием FSR 3.1 не забирают. Обе версии должны дополнять друг друга: если у пользователя старая видеокарта, то он будет иметь FSR 3.1, если же новая RX 9000 — FSR 4.
AMD HYPR-RX
NVIDIA для своих технологий масштабирования имеет название DLSS, в которую много чего добавили, из-за чего в начале все путались. Intel создала свой аналог в виде XeSS 2, в котором также несколько запутала пользователей. Хорошо, что AMD сделала правильный выбор и свои технологии назвала отдельным названием HYPR-RX. Она включает в себя:
- AMD FSR — масштабирование изображения;
- AMD Fluid Motion Frames 2 — генератор кадров.
- AMD Anti-Lag 2 — уменьшение задержек при использовании клавиатуры, мыши или геймпада;
- AMD Boost — масштабирование для видеокарт RX 6000;
- AMD Super Resolution — еще одна технология масштабирования, только для RX 5000;
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fa09c49cbf0ff270198fbb034ac72cecc.png)
Из слайда становится понятно, что HYPR-RX — пункт в меню драйверов Adrenaline для быстрого запуска необходимых пользователю улучшений. Поддерживается на видеокартах RX 5000, RX 6000, RX 7000, RX 9070 и гибридных APU AMD Ryzen AI 300. Конечно, потом добавят поддержку новых RX 9060 (если они вообще будут). Пройдемся по встроенным технологиям (про FSR уже рассказали выше).
Основная задача AMD Fluid Motion Frames (FMG) 2 заключается в генерировании кадров. Полное включение позволяет повысить fps более чем в три раза. То есть, один-два кадра будут генерироваться. Улучшенная версия FMG 2.1 должна точно работать на новых видеокартах RX 9000, а вот насчет предыдущих поколений существуют определенные сомнения.
AMD Anti-Lag 2 позволяет снизить задержку ввода с мыши, клавиатуры или геймпада от 20% в таких играх, как Counter Strike 2, Apex Legends и, неожиданно, в Ghost of Tsushima.Скоро будет еще кое-что.
В целом у AMD сейчас стабильно хорошее положение дел. Процессоры очень популярны как для обычного пользователя, так и особенно для геймеров. Консоли Sony PlayStation явно будут оставаться на AMD. С Xbox вопрос остается открытым (AMD или ARM), однако Microsoft всегда была на своей волне.
С рынком видеокарт сейчас не все в порядке, причем у всех игроков на рынке. NVIDIA явно завышает цены на новые видеокарты, так как основной доход компания получает от собственных разработанных серверных решений для AI. Пока существуют бизнес-клиенты, NVIDIA будет покрывать этот рынок своей продукцией. А геймеры будут получать остатки, потому что одинаковые процессоры применяются для обоих рынков.
AMD как бы пытается заигрывать с геймерами, однако существует ровно один недостаток — технологический. Во-первых, отставание на одно поколение в делах Трассировки лучей. Во-вторых, технология FSR 4 должна уже быть на уровне нового DLSS 4 с новой моделью Transformer, однако похоже, что таки еще DLSS 3. В-третьих, если бы AMD показала, что RX 9070 XT легко обходила RTX 5080 без трассировки в полтора-два раза дешевле по цене — вопросов 0. Или хотя была бы сильнее в чистом нативе 4К за RTX 5070 Ti всегда в тестах — вопросов нет. А так AMD ведет битву «на raytracing поле врага».
Ну что ж. Сейчас AMD нужно больше вкладывать средства в разработчиков рабочего программного обеспечения (рендеринг, нейронные сети) для увеличения заинтересованности потенциальных покупателей. Не только игры должны хорошо идти, а еще и приложения. Пользователи вряд ли хотят покупать аж две видеокарты: одна для игр, а другая — софт.
Через год-два ждем нового поколения консолей, с новым аналогом PSSR 2 для Sony с улучшенным масштабированием Super Resolution и новым генератором кадров. Ну и про новые «портативки» с APU Strix Halo не забываем.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F9f2d4a59747800c02cd28df63a6042db.png)
