bench - 搜索 News

资讯

3 天

中国信通院发布EAI Bench，加速具身智能产业化进程

中国信息通信研究院（信通院）近日启动了“可信AI”EAI Bench评估工作，旨在推动具身智能技术的发展与落地。随着具身基座模型的快速迭代以及软硬件一体化技术的不断演进，具身智能在运动竞技和技能比赛中展现出强大的潜力。然而，要实现 ...

OpenAI 首个开源模型？神秘 Horizon Alpha 崭露头角

IT之家 8 月 2 日消息，科技媒体 WinBuzz 昨日（8 月 1 日）发布博文，报道称一款名为 Horizon Alpha 的神秘 AI 模型在 OpenRouter 平台崭露头角，迅速登顶 EQ-Bench 创意写作排行榜，并预估会是 ...

腾讯网2 天

清华汪玉团队提出VS-Bench测试基准，包含8个多智能体环境，能评估VLM ...

随着大模型的发展，大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务，在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而，现有的测试基准主要集中在单智能体或纯文本环境，缺少多智能体、多模态的大模型智能体测试基 ...

2 天

清华汪玉团队发布VS-Bench：新标准评估多智能体任务中的视觉语言 ...

随着人工智能技术的飞速发展，尤其是大模型的崛起，AI的能力正逐步从单一的静态问答和推理任务，向更加复杂的多步交互式智能体任务扩展。这一变化不仅影响了软件开发、计算机使用，还对游戏博弈等领域产生了深远影响。然而，当前的测试基准多集中于单一智能体或纯文本环境，缺乏对多智能体和多模态大模型智能体的全面评估。为了填补这一空白，清华大学教授汪玉团队的博士生徐泽来及其合作者最近提出了一个全新的测试基准——V ...

7 天

朗新九功数据智能体斩获权威评测BIRD-Bench双榜冠军

中证报中证网讯（王珞）7月25日，国际权威评测基准BIRD-Bench最新消息，朗新九功AI能源大模型数据智能体超越众多国际科技巨头，斩获双榜全球第一。

科技行者 on MSN1 天

新加坡国立大学推出IPV-BENCH：首个专门评估AI视频模型处理"不可能 ...

这项由新加坡国立大学Show ...

每日科技网10 小时

神秘 AI 模型 Horizon Alpha 惊艳登场，登顶 EQ - Bench 创意写作榜引热议

8 月 2 日消息，据科技媒体 WinBuzz 于 8 月 1 日发布的博文显示，一款名为 Horizon Alpha 的神秘 AI 模型在 OpenRouter 平台上脱颖而出，迅速登上 EQ - Bench 创意写作排行榜榜首，其出色表现引发了 AI 领域的广泛关注，且有观点认为它可能是 OpenAI 的首个开源 AI 模型。 Horizon Alpha 于 7 月 31 日低调发布，尽管其创 ...