资讯
为解决上述挑战,NVIDIA于SIGGRAPH上宣布扩展两类面向推理任务的模型体系——NVIDIA Nemotron 与 NVIDIA ...
更令人惊讶的是,研究团队发现这些通用的大语言模型在没有专门训练的情况下,竟然展现出了复杂的策略行为。它们会制定承诺、进行欺骗、背叛盟友,甚至在面对不同实力的对手时表现出截然不同的行为模式。这就好比发现一个从未学过外交的人,仅凭常识和语言能力就能在国际 ...
作者指出, 模型预训练技术的增强仍然值得持续投入,因为如果强化学习只专注于思考模式的培养,语言模型预训练阶段的能力依然会对下游任务 ...
交叉学科Interdisciplinary随着人工智能(AI)新方法的不断涌现以及AI应用领域的不断拓展,整合多种模态(文本、图像、音频、视频等)数据对于开发智能系统,实现关键应用显得愈发重要。多模态人工智能模型能够整合不同类型的数据,取长补短,为从医疗保健到自动化实验室等诸多领域中复杂任务 ...
大模型行业分析报告:大型语言模型 (LLM)是基于大量数据进行预训练的超大型深度学习模型。当前,我国大语言模型在全球处于发展前列,但与美国仍然存在一定差距,仍有距离需要追赶。本文将从大语言模型中外发展状况角度对全球行业发展进度进行对比,同时,客观认识我国大语言模型发展进程 ...
促进我国人工智能大模型技术创新成果向全球治理贡献转化,以人工智能大模型关键核心技术为抓手开拓国际科技合作新局面,在尊重主权、平等互信基础上为全球南方国家建立安全可控的本土大模型提供中国方案,让人工智能大模型技术真正助力全球发展事业,赋能人类美好生活。
36氪独家获悉,大模型初创公司「百川智能」已于近期完成A轮融资,总融资金额达50亿元人民币。 此前,百川智能已经在2023年10月官宣了A1轮融资 ...
多模态大模型的发展对AI芯片和AI服务器提出了更高的要求。AI芯片方面,由于多模态大模型需要处理多种类型的数据,进行复杂的计算任务,如数据解码、特征提取、模态融合等,因此需要具备强大的并行计算能力和高显存容量。AI服务器方面,通常需要配备多个高性能的AI芯片,以及多核、高主频 ...
MoE Transformer 模块 Time-MoE 基于 decoder-only Transformer,并结合了大规模语言模型中的最新技术。Transformer 模块里,RMSNorm 对每个子层输入进行了归一化 ...
中国日报7月23日电(记者 樊菲菲)7月23日清晨,阿里开源全新的通义千问AI编程大模型Qwen3-Coder,编程能力登顶全球开源模型阵营,并超越GPT4.1等闭源模型,比肩全球最强的编程模型Claude4。 千问3编程模型在代码能力及Agent调用能力方面取得重大突破。
OpenCompass团队对7个AI大模型进行了高考9个科目的全科目测试,表现最优的三个大模型文科成绩过一本,理科成绩超二本。 此前6月,上海人工智能 ...
阿里云刚刚发布的通义千问AI编程大模型Qwen3-Coder在发布当日就宣布一个月内限时五折,加上7月11日发布并开源,擅长代码与 Agentic 任务的Kimi K2 模型 ...
当前正在显示可能无法访问的结果。
隐藏无法访问的结果