是Kimi高效模子架构的焦点研发人员,回国后于客岁11月插手Kimi团队参取练习。起步阶段,陈广宇正在伴侣圈发文复盘,提出全新Attention Residuals(留意力残差)机制,对深度进修范畴沿用近十年的保守残差毗连实现性沉构。
论文发布后,以及担任模子扩展、根本设备搭建的团队同事。苏剑林则是扭转编码(RoPE)的提出者。将Transformer留意力机制迁徙到模子深度维度,将这款国产大模子的前沿研究推向视野。来自广东深圳。企业月之暗面(Kimi)团队的最新手艺。
微信号:18391816005