back to top
-0.4 C
Европа
Воскресенье, 11 января, 2026

Deep Seek продемонстрировала метод, который делает большие и-модели более эффективными

Китайская компания DeepSeek в 2025 году опубликовала исследование, в котором предложила новый подход к обучению базовых моделей искусственного интеллекта. Один из авторов работы – глава компании Лян Вэньфэн (Liang Wenfeng).

Метод называется «гиперсвязи с ограничением разнообразия» (mHC). Он помогает моделям работать более эффективно, сохраняя конкурентоспособность с американскими разработками, которые имеют больше вычислительных ресурсов. Статьи DeepSeek публикуются в открытом доступе, отражая культуру открытого обмена знаниями в Китае, и дают представление о технологиях, готовящихся к коммерческому использованию.

Метод mHC тестировали на моделях с 3, 9 и 27 млрд параметров. Он не увеличивает значительно вычислительную нагрузку по сравнению с обычными гиперсвязями (HC), которые ByteDance предложила еще в 2024 году в качестве модификации ResNet – популярной архитектуры глубокого обучения. ResNet помогает обучать очень глубокие сети, сохраняя ключевую информацию во всех слоях. Но стандартные гиперсвязи нагружают память и затрудняют масштабирование больших моделей.

Метод mHC решает эту проблему, сохраняя поток данных и эффективность, но без значительного увеличения нагрузки на память. Это открывает новые пути для развития архитектур нового поколения. По прогнозам, DeepSeek может представить новую крупную модель уже в середине февраля 2026 года.

- Реклама -