资讯

gpt-oss-120b 和 gpt-oss-20bOpenAI终于把开源的模型放出来了。gpt-oss系列也是自GPT2以来,OpenAI首次开源的大语言模型。我也是美滋滋在本地用上了,20B版本通过Ollama在Apple M1 Pro ...
更令人惊讶的是,研究团队发现这些通用的大语言模型在没有专门训练的情况下,竟然展现出了复杂的策略行为。它们会制定承诺、进行欺骗、背叛盟友,甚至在面对不同实力的对手时表现出截然不同的行为模式。这就好比发现一个从未学过外交的人,仅凭常识和语言能力就能在国际 ...
NVIDIA于SIGGRAPH上宣布扩展两类面向推理任务的模型体系 ...
作者指出, 模型预训练技术的增强仍然值得持续投入,因为如果强化学习只专注于思考模式的培养,语言模型预训练阶段的能力依然会对下游任务 ...
交叉学科Interdisciplinary随着人工智能(AI)新方法的不断涌现以及AI应用领域的不断拓展,整合多种模态(文本、图像、音频、视频等)数据对于开发智能系统,实现关键应用显得愈发重要。多模态人工智能模型能够整合不同类型的数据,取长补短,为从医疗保健到自动化实验室等诸多领域中复杂任务 ...
36氪独家获悉,大模型初创公司「百川智能」已于近期完成A轮融资,总融资金额达50亿元人民币。 此前,百川智能已经在2023年10月官宣了A1轮融资 ...
华为盘古团队否认开源模型抄袭 7月5日,华为诺亚方舟实验室发布声明称,盘古Pro MoE开源模型是基于昇腾硬件平台开发、训练的基础大模型,并非 ...
OpenCompass团队对7个AI大模型进行了高考9个科目的全科目测试,表现最优的三个大模型文科成绩过一本,理科成绩超二本。 此前6月,上海人工智能 ...
MoE Transformer 模块 Time-MoE 基于 decoder-only Transformer,并结合了大规模语言模型中的最新技术。Transformer 模块里,RMSNorm 对每个子层输入进行了归一化 ...