Samsung будет оснащать встроенными ускорителями вычислений все типы памяти
Samsung будет оснащать встроенными ускорителями вычислений все типы памяти

Samsung будет оснащать встроенными ускорителями вычислений все типы памяти

На конференции Hot Chips 33 компания Samsung сообщила о планах встраивать ускорители вычислений во все типы оперативной памяти от смартфонов до компьютеров, видеокарт и серверов. Это позволит увеличить производительность платформ и снизить их энергопотребление. Самое приятное, что чипы памяти с ускорителями можно использовать вместо обычной памяти, а программная поддержка довольно простая, что уже заинтересовало разработчиков CPU и GPU.

Память PIM (processing-in-memory, вычисления в памяти) применительно к чипам HBM2 компания Samsung показала в феврале этого года. Каждый чип HBM2 вооружался программируемым ИИ-ускорителем производительностью 1,2 терафлопс (FP16) и мог обрабатывать хранящиеся в памяти данные непосредственно, не перегоняя их в центральный процессор и обратно. Сегодня компания сообщила, что работает над вооружением ускорителями расчётов всех основных типов оперативной памяти, что обещает появление PIM-блоков в подсистемах ноутбуков, видеокарт и так далее.

Следует сказать, что сегодня PIM-ускоритель забирает под себя примерно половину площади кристалла памяти, что не очень приятно с точки зрения наращивания объёмов. В будущем Samsung обещает уменьшить ускоритель, представляя всё более и более плотные микросхемы ОЗУ всех типов. В частности, для чипов HBM третьего помоления компания обещает ту же ёмкость для PIM-HBM3, что и для обычных микросхем HBM3. Можно предположить, что это возможно благодаря стековой структуре этой памяти.

Слои HBM-PIM (теперь это бренд Samsung Aquabolt-XL) вставляются непосредственно в стек HBM2 на ту же самую подложку-контроллер, что и раньше. Тем самым стеки HBM2 проще простого подменить стеками с включением HBM-PIM, заменив одни на другие. Такие гибридные стеки были испытаны компанией Xilinx вместе с продуктами Alveo без каких-либо модификаций процессоров и адаптеров (монтажной платы или интерпозера). По сообщению партнёров, производительность подскочила в 2,5 раза с одновременным снижением потребления энергии на 62 %. Такую же операцию, уверяют в Samsung, можно провести с GPU и CPU со сходной компоновкой и разработчики этих решений уже заинтересовались предложением компании.

Для самых нетерпеливых Samsung предлагает готовое решение в виде модулей AXDIMM DDR4 (Acceleration DIMM). Модули имеют буфер, который помогает обрабатывать данные в памяти, одновременно работая со всеми рангами DRAM на планке. Такой модуль устанавливается в обычный сервер в стандартный слот памяти. Всю работу — обработку данных в памяти с точностью FP16 с применением стандартных процедур TensorFlow и Python — модуль обеспечивает самостоятельно, а Samsung делает всё возможное, чтобы обеспечить поддержку других программных инструментов.

Компания заявляет, что её тесты (проведённые на рабочей нагрузке Facebook AI) показали увеличение производительности в 1,8 раза, снижение энергопотребления на 42,6 % и уменьшение задержки хвоста на 70 % с 2-ранговым комплектом. Всё это повторим, без доработок в стандартном сервере, что, безусловно, впечатляет.

В мобильных платформах, если говорить о применении PIM с чипами LPDDR5 и подобной, использование вычислений в памяти принесёт такой же ряд новых возможностей. Пока компания лишь моделирует такие процессы, но со временем они обещают появиться в ноутбуках и даже смартфонах. Например, для памяти LPDDR5X-6400 заявлено повышение производительности в 2,3 раза при рабочих нагрузках по распознаванию речи, в 1,8 раза при преобразовании перевода и в 2,4 раза при генерации текста GPT-2. Эти улучшения производительности сопровождаются снижением потребления в 3,85, 2,17 и 4,35 раза соответственно. Другой вопрос, когда это выйдет на рынок? Ведь эта технология пока не стала стандартом, утверждённым JEDEC.

Джерело матеріала
loader
loader