100 000 графических процессоров: суперкомпьютер xAI Colossus раскрывает секреты
100 000 графических процессоров: суперкомпьютер xAI Colossus раскрывает секреты

100 000 графических процессоров: суперкомпьютер xAI Colossus раскрывает секреты

Суперкластер xAI Colossus Маска находится в сети уже почти два месяца после 122-дневной сборки. Он является крупнейшим суперкомпьютером ИИ в мире.

Новый дорогостоящий проект Илона Маска, суперкомпьютер xAI Colossus AI, был впервые представлен в деталях. Об этом пишет Tom’s Hardware.

YouTuber ServeTheHome получил доступ к серверам Supermicro в пределах зверя из 100 000 GPU, продемонстрировав несколько граней суперкомпьютера.

ServeTheHome снимает камерой несколько частей сервера, давая возможность увидеть его работу с высоты птичьего полета. Более тонкие детали суперкомпьютера, такие как потребляемая мощность и размеры насоса, не могли быть раскрыты в соответствии с соглашением о неразглашении, и xAI размыл и подверг цензуре части видео перед его выпуском. Самые важные вещи, такие как серверы Supermicro GPU, остались в основном нетронутыми в кадрах выше.

Серверы GPU — это Nvidia HGX H100, серверное решение, содержащее восемь GPU H100 каждый. Платформа HGX H100 упакована в универсальную систему жидкостного охлаждения GPU 4U от Supermicro, обеспечивающую простую горячую замену жидкостного охлаждения для каждого GPU.

Эти серверы загружаются в стойки, вмещающие восемь серверов каждая, что составляет 64 GPU на стойку. Коллекторы 1U зажаты между каждым HGX H100, обеспечивая жидкостное охлаждение, необходимое серверам. Внизу каждой стойки находится еще один блок Supermicro 4U, на этот раз с резервной насосной системой и системой мониторинга стойки.

Стойки объединены в группы по восемь, что составляет 512 графических процессоров на массив. Каждый сервер имеет четыре резервных источника питания, а задняя часть стоек графических процессоров показывает 3-фазные источники питания, коммутаторы Ethernet и коллектор размером со стойку, обеспечивающий все жидкостное охлаждение.

В кластере Colossus находится более 1500 стоек графических процессоров, или около 200 массивов стоек. По словам генерального директора Nvidia Дженсена Хуанга, графические процессоры для этих 200 массивов были полностью установлены всего за три недели.

Из-за высоких требований к пропускной способности суперкластера ИИ, постоянно обучающего модели, xAI вышел за рамки избыточности для своей сетевой взаимосвязанности.

Каждая графическая карта имеет выделенный NIC (контроллер сетевого интерфейса) на 400GbE, с дополнительным NIC 400Gb на сервер. Это означает, что каждый сервер HGX H100 имеет 3,6 терабит в секунду Ethernet. И да, весь кластер работает на Ethernet, а не на InfiniBand или других экзотических соединениях, которые являются стандартными в области суперкомпьютеров.

xAI Colossus в настоящее время, по данным Nvidia, является крупнейшим суперкомпьютером ИИ в мире. В то время как многие из ведущих суперкомпьютеров мира являются исследовательскими отсеками, которые могут использовать многие подрядчики или ученые для изучения погодных условий, болезней или других сложных вычислительных задач, Colossus несет исключительную ответственность за обучение различных моделей ИИ X (ранее Twitter).

В первую очередь Grok 3, чат-бот Илона "анти-пробуждение", доступный только подписчикам X Premium. ServeTheHome также сообщили, что Colossus обучает модели ИИ "будущего"; модели, использование и возможности которых предположительно выходят за рамки возможностей сегодняшнего флагманского ИИ.

Первая фаза строительства Colossus завершена, и кластер полностью запущен, но еще не все готово. Суперкомпьютер Memphis скоро будет модернизирован, чтобы удвоить свою мощность GPU, добавив 50 000 дополнительных H100 GPU и 50 000 следующего поколения H200 GPU.

Это также более чем удвоит его энергопотребление, которое уже слишком много для 14 дизельных генераторов Маска, добавленных на площадку в июле. Это также не дотягивает до обещания Маска о 300 000 H200 внутри Colossus, хотя это может стать третьей фазой модернизации.

Суперкомпьютер Cortex с 50 000 графических процессоров на заводе Tesla "Giga Texas" также принадлежит компании Маска. Cortex занимается обучением технологии беспилотного ИИ Tesla только с помощью камеры и обнаружения изображений, а также автономных роботов Tesla и других проектов ИИ.

Tesla также скоро увидит строительство суперкомпьютера Dojo в Буффало, штат Нью-Йорк, проект стоимостью 500 миллионов долларов. Поскольку отраслевые спекулянты, такие как генеральный директор Baidu Робин Ле, предсказывают, что 99% компаний ИИ рухнут, когда пузырь лопнет, еще предстоит увидеть, окупятся ли рекордные расходы Маска на ИИ или же дадут обратный эффект.

Также сообщалось, что группа ученых под руководством Google представила новые доказательства того, что на современных квантовых устройствах среднего масштаба можно запускать производительные схемы, недостижимые для классических вычислительных систем.

Теги по теме
Илон Маск
Источник материала
loader
loader