资讯
2 小时
金融界财经 on MSNDeepSeek低调升级,上下文窗口容量由64k扩展至128k,“深度思考(R1 ...
DeepSeek线上模型近日迎来重要升级,官方群于8月19日晚间宣布,其线上版本模型已迭代至DeepSeek ...
9 小时on MSN
DeepSeek V3.1版上线升级上下文长度,R2发布日期仍待定
DeepSeek小助手近日在其官方社群中揭晓了一项重要更新,其线上模型版本已经顺利跃升至V3.1阶段。此次升级的核心亮点在于上下文处理能力的显著增强,现可支持长达128k的文本长度,为用户提供了更为宽广的信息处理空间。
从名字也能看出来,该模型是 DeepSeek-V3 系列最新的基础模型。至于为什么命名为 V3.1,而不是像之前以前命名为 V3 带四位日期数字的形式(如 V3-0324),尽管社区有诸多猜测,但深度求索官方尚未给出明确说明 —— ...
DeepSeek 近日低调升级其线上模型,将 DeepSeek V3.1 推向市场,引发了科技圈的广泛关注。此次升级的核心在于将上下文窗口容量从原有的 64k 扩展至 128k ,显著提升了模型处理长文本的能力。这一举措,预示着 DeepSeek 在 AI 领域,尤其是在 大语言模型 (LLM) 应用上的深度探索,也预示着行业内对更长上下文窗口的需求日益增长。
【环球网科技综合报道】8月20日消息,DeepSeek日前在Hugging Face上开源了新模型 V3.1-Base。此外,日前DeepSeek 还发布通知称,线上模型版本已升级至 V3.1,上下文长度拓展至 ...
在需要多跳推理和工具使用的研究型任务上,Datacommons QA基准测试TIM达到了67.9%的准确率,与使用4000多token任务特定提示的Thread方法持平,但TIM只需要简洁的系统消息和工具描述。
IT之家 8 月 20 日消息,DeepSeek 昨天深夜在 Hugging Face 上开源了新模型 V3.1-Base,根据介绍,该模型将上下文长度拓展至 128K,参数约为 ...
智东西第一时间在网页端对新模型的能力进行了体验,从初步体验结果来看,这一模型在编程(尤其是前端能力)、物理定律理解、创意写作、数学、回答语气等方面都出现不同程度的提升和变化。
IT之家 8 月 13 日消息,在 OpenAI 推出开放模型和 GPT-5 之后,Anthropic 也接连发布了一系列人工智能相关消息。该公司今日宣布,其 Claude Sonnet 4 模型在 Anthropic API 中支持的上下文 token 数量已提升至 100 万,这一数字是之前上限的五倍。
人工智能初创公司 Anthropic 近日宣布,其备受关注的 Claude Sonnet4LLM 模型现已扩展支持高达100万个上下文词元。此前,该模型的 API 仅支持20万个词元。此次扩展使得开发者可以在单个请求中传输超过75,000行的代码,极大提高了使用的灵活性和便利性。
IT之家8 月 12 日消息,今日,华为正式发布 AI 推理创新技术 UCM(推理记忆数据管理器)。 据IT之家了解,作为一款以 KV Cache 为中心的推理加速套件,UCM 融合了多类型缓存加速算法工具,分级管理推理过程中产生的 KV Cache 记忆数据,可扩大推理上下文窗口,实现高吞吐、低时延的推理体验,降低每 Token 推理成本。该技术已率先在中国银联“客户之声”“营销策划”“办公助手 ...
研究者推测编码器 - 解码器模型也许能更好地利用其上下文窗口,因为它们的双向编码器让它们可以在未来文档的上下文中处理每个文档,这或许能 ...
当前正在显示可能无法访问的结果。
隐藏无法访问的结果