Компания xAI, которая развивает модель Grok и принадлежит Илон Маск, столкнулась с серьезным вызовом – эффективным использованием собственных вычислительных ресурсов. Несмотря на масштабную инфраструктуру, реальная производительность оказалась значительно ниже ожиданий.
По имеющимся данным, компания развернула около 550 тысяч графических ускорителей Nvidia серий H100 и H200 в кластерах Memphis и Colossus. Однако фактическая загрузка этой системы составляет всего около 11%. Другими словами, эффективно используется только около 60 тысяч графических процессоров, а остальные простаивают.
Проблема заключается не в отсутствии мощностей, а в сложности управления такой масштабной инфраструктурой. На уровне сотен тысяч GPU даже небольшие задержки между этапами обучения, передачей данных и синхронизацией быстро накапливаются. В результате возникают узкие места, которые резко снижают общую эффективность системы.
Источники указывают, что основная причина – недостаточная зрелость программной и распределенной архитектуры обучения в xAI. Из-за этого графические процессоры часто просто ожидают данные или новые задачи, вместо того чтобы работать на полную. В то же время эксперты подчеркивают, что это не уникальная проблема: достижение высокого уровня загрузки в гигантских AI-кластерах остается сложной задачей для всей индустрии.
Для сравнения, такие гиганты, как Meta и Google, демонстрируют лучшие результаты – примерно 43% и 46% загрузки соответственно. Однако даже эти показатели не считаются идеальными. В xAI ориентируются на уровень около 50%, но когда именно удастся достичь такого показателя, пока не уточняется.

