资讯

在人工智能技术迅猛发展的背景下,语言模型已成为我们生活中不可或缺的组成部分。卡内基梅隆大学与CartesiaAI的研究团队近日发布了一项具有革命性的研究成果,提出了全新的H-Net架构,能够让AI系统直接处理原始字节级数据,摆脱传统分词器的依赖。这项 ...
Transformer架构作为当前大语言模型的主流架构,因为拥有特殊的注意力机制,存在输出长度较短的缺点。为了解决这个问题,业界提出RWKV、Mamba等解决方案。 其中,Albert ...