资讯
中国信息通信研究院(信通院)近日启动了“可信AI”EAI Bench评估工作,旨在推动 具身智能 技术的发展与落地。随着 具身基座模型 的快速迭代以及软硬件一体化技术的不断演进, 具身智能 在运动竞技和技能比赛中展现出强大的潜力。然而,要实现 ...
IT之家 8 月 2 日消息,科技媒体 WinBuzz 昨日(8 月 1 日)发布博文,报道称一款名为 Horizon Alpha 的神秘 AI 模型在 OpenRouter 平台崭露头角,迅速登顶 EQ-Bench 创意写作排行榜,并预估会是 ...
随着大模型的发展,大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务,在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而,现有的测试基准主要集中在单智能体或纯文本环境,缺少多智能体、多模态的大模型智能体测试基 ...
随着人工智能技术的飞速发展,尤其是大模型的崛起,AI的能力正逐步从单一的静态问答和推理任务,向更加复杂的多步交互式智能体任务扩展。这一变化不仅影响了软件开发、计算机使用,还对游戏博弈等领域产生了深远影响。然而,当前的测试基准多集中于单一智能体或纯文本环境,缺乏对多智能体和多模态大模型智能体的全面评估。 为了填补这一空白,清华大学教授汪玉团队的博士生徐泽来及其合作者最近提出了一个全新的测试基准——V ...
中证报中证网讯(王珞)7月25日,国际权威评测基准BIRD-Bench最新消息,朗新九功AI能源大模型数据智能体超越众多国际科技巨头,斩获双榜全球第一。
1 天
科技行者 on MSN新加坡国立大学推出IPV-BENCH:首个专门评估AI视频模型处理"不可能 ...
这项由新加坡国立大学Show ...
8 月 2 日消息,据科技媒体 WinBuzz 于 8 月 1 日发布的博文显示,一款名为 Horizon Alpha 的神秘 AI 模型在 OpenRouter 平台上脱颖而出,迅速登上 EQ - Bench 创意写作排行榜榜首,其出色表现引发了 AI 领域的广泛关注,且有观点认为它可能是 OpenAI 的首个开源 AI 模型。 Horizon Alpha 于 7 月 31 日低调发布,尽管其创 ...
近期,朗新九功AI能源大模型数据智能体在国际评测舞台大放异彩,成功斩获BIRD-Bench双项全球桂冠,这一成就标志着朗新在AI技术领域的卓越实力与创新突破。
1 天
证券之星股票频道 on MSN华兴源创新注册《华兴源创Test Bench Framework平台V1.0》项目的软件著作权
证券之星消息,近日华兴源创(688001)新注册了《华兴源创Test Bench Framework平台V1.0》项目的软件著作权。今年以来华兴源创新注册软件著作权9个。结合公司2024年年报财务数据,2024年公司在研发方面投入了3.94亿元,同比减0.79%。
字节跳动旗下的豆包大模型团队近日传来重要消息,他们正式推出了首个多语言软件错误修正(SWE)数据集——Multi-SWE-bench。这一创新工具旨在评估 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果