Больше не нужно искать — необходимые
обучающие материалы и подсказки всегда под рукой
DeepSeek представила новую исследовательскую работу с подписью Лян Вэньфэна: архитектура mHC повышает стабильность обучения больших моделей
Компания DeepSeek опубликовала научную статью, в которой представлена новая архитектура под названием «многообразно-ограниченная гиперсвязность» (mHC). Её цель — решить проблемы нестабильности обучения и ограниченной масштабируемости, связанные с технологией гиперсвязных сетей (HC), которые нарушают свойство тождественного отображения.
Новая архитектура восстанавливает это свойство путём проецирования остаточных связей HC на определённое многообразие. Одновременно с этим используются строгие оптимизации инфраструктуры для обеспечения эффективности. В результате достигнуто значительное улучшение производительности и превосходная масштабируемость.
По оценкам DeepSeek, mHC как гибкое и практичное расширение HC позволит глубже понять принципы проектирования топологических архитектур и укажет перспективные направления для развития базовых моделей.
Первыми авторами исследования выступили Чжэньда Се (Zhenda Xie), Исюань Вэй (Yixuan Wei) и Хуаньци Цао (Huanqi Cao). В числе авторов также значится Лян Вэньфэн (Liang Wenfeng).