Китайская компания DeepSeek в 2025 году опубликовала исследование, в котором предложила новый подход к обучению базовых моделей искусственного интеллекта. Один из авторов работы – глава компании Лян Вэньфэн (Liang Wenfeng).
Метод называется «гиперсвязи с ограничением разнообразия» (mHC). Он помогает моделям работать более эффективно, сохраняя конкурентоспособность с американскими разработками, которые имеют больше вычислительных ресурсов. Статьи DeepSeek публикуются в открытом доступе, отражая культуру открытого обмена знаниями в Китае, и дают представление о технологиях, готовящихся к коммерческому использованию.
Метод mHC тестировали на моделях с 3, 9 и 27 млрд параметров. Он не увеличивает значительно вычислительную нагрузку по сравнению с обычными гиперсвязями (HC), которые ByteDance предложила еще в 2024 году в качестве модификации ResNet – популярной архитектуры глубокого обучения. ResNet помогает обучать очень глубокие сети, сохраняя ключевую информацию во всех слоях. Но стандартные гиперсвязи нагружают память и затрудняют масштабирование больших моделей.
Метод mHC решает эту проблему, сохраняя поток данных и эффективность, но без значительного увеличения нагрузки на память. Это открывает новые пути для развития архитектур нового поколения. По прогнозам, DeepSeek может представить новую крупную модель уже в середине февраля 2026 года.

