Сегодня 29 октября 2024
Мощнейший ИИ-суперкомпьютер Илона Маска xAI Colossus на 100 тысяч Nvidia H100 был представлен общественности. Журналисты ресурса ServeTheHome получили возможность осмотреть кластер, который был построен на серверах Supermicro за 122 дня и функционирует уже почти два месяца.
Серверы с графическими процессорами функционируют на платформе Nvidia HGX H100. Каждый сервер включает восемь ускорителей Nvidia H100 и систему жидкостного охлаждения Supermicro 4U с поддержкой горячей замены компонентов. Стойки сервера установлены по восемь, что позволяет разместить 64 ускорителя на каждой стойке. В нижней части каждой стойки находится резервный блок Supermicro 4U с насосной системой и мониторингом.
Стойки сгруппированы по восемь, что дает 512 графических процессоров на массив. Каждый сервер имеет четыре дублирующих блока питания, а также трёхфазные блоки питания и коммутаторы Ethernet. В кластер Colossus входит более 1500 стоек или около 200 массивов, а установка ускорителей заняла всего три недели.
Для обеспечения высоких требований к пропускной способности, инженеры xAI внедрили выделенные сетевые контроллеры на 400 GbE для каждой графической карты. Каждый сервер Nvidia HGX H100 имеет Ethernet со скоростью 3,6 Тбит/с, что является нестандартным решением для суперкомпьютеров.
Кроме графических процессоров, для обучения моделей ИИ, таких как Grok 3, необходимы также накопители и центральные процессоры. Информация о них разглашается частично: на видео видно, что используются серверы на чипах x86 в корпусах Supermicro.
На объекте установлены аккумуляторы Tesla Megapack, которые служат буфером энергии из-за резких перепадов в потребляемой мощности кластера. Каждая батарея имеет ёмкость до 3,9 МВт·ч и установлена между электросетью и суперкомпьютером.
Постоянный URL: https://3dnews.ru/1113172/opublikovan-perviy-obzor-iiklastera-ilona-maska-xai-colossus-na-100-tisyach-nvidia-h100