上下文 - 搜索 News

资讯

金融界财经 on MSN2 小时

DeepSeek低调升级，上下文窗口容量由64k扩展至128k，“深度思考（R1 ...

DeepSeek线上模型近日迎来重要升级，官方群于8月19日晚间宣布，其线上版本模型已迭代至DeepSeek ...

9 小时on MSN

DeepSeek V3.1版上线升级上下文长度，R2发布日期仍待定

DeepSeek小助手近日在其官方社群中揭晓了一项重要更新，其线上模型版本已经顺利跃升至V3.1阶段。此次升级的核心亮点在于上下文处理能力的显著增强，现可支持长达128k的文本长度，为用户提供了更为宽广的信息处理空间。

3 小时

DeepSeek开源新基础模型，但不是V4，而是V3.1-Base

从名字也能看出来，该模型是 DeepSeek-V3 系列最新的基础模型。至于为什么命名为 V3.1，而不是像之前以前命名为 V3 带四位日期数字的形式（如 V3-0324），尽管社区有诸多猜测，但深度求索官方尚未给出明确说明 —— ...

2 小时

DeepSeek V3.1：128k上下文窗口加持，长文本处理能力再进化

DeepSeek 近日低调升级其线上模型，将 DeepSeek V3.1 推向市场，引发了科技圈的广泛关注。此次升级的核心在于将上下文窗口容量从原有的 64k 扩展至 128k ，显著提升了模型处理长文本的能力。这一举措，预示着 DeepSeek 在 AI 领域，尤其是在大语言模型 (LLM) 应用上的深度探索，也预示着行业内对更长上下文窗口的需求日益增长。

腾讯网2 分钟

DeepSeek 开源新模型 V3.1：上下文长度拓展至 128K

【环球网科技综合报道】8月20日消息，DeepSeek日前在Hugging Face上开源了新模型 V3.1-Base。此外，日前DeepSeek 还发布通知称，线上模型版本已升级至 V3.1，上下文长度拓展至 ...

2 小时

思维链可无限延伸了，MIT等打破大模型上下文天花板

在需要多跳推理和工具使用的研究型任务上，Datacommons QA基准测试TIM达到了67.9%的准确率，与使用4000多token任务特定提示的Thread方法持平，但TIM只需要简洁的系统消息和工具描述。

腾讯网2 小时

DeepSeek开源新模型V3.1：约685B参数，上下文长度拓展至128K

IT之家 8 月 20 日消息，DeepSeek 昨天深夜在 Hugging Face 上开源了新模型 V3.1-Base，根据介绍，该模型将上下文长度拓展至 128K，参数约为 ...

3 小时

刚刚，DeepSeek新模型开源，五大能力变化明显，附一手体验

智东西第一时间在网页端对新模型的能力进行了体验，从初步体验结果来看，这一模型在编程（尤其是前端能力）、物理定律理解、创意写作、数学、回答语气等方面都出现不同程度的提升和变化。

7 天

Anthropic Claude Sonnet 4 上下文 token 数提升至 100 万，可同时处理数十篇 ...

IT之家 8 月 13 日消息，在 OpenAI 推出开放模型和 GPT-5 之后，Anthropic 也接连发布了一系列人工智能相关消息。该公司今日宣布，其 Claude Sonnet 4 模型在 Anthropic API 中支持的上下文 token 数量已提升至 100 万，这一数字是之前上限的五倍。

7 天

Anthropic 的 Claude Sonnet 4 模型已支持高达 100 万个词元

人工智能初创公司 Anthropic 近日宣布，其备受关注的 Claude Sonnet4LLM 模型现已扩展支持高达100万个上下文词元。此前，该模型的 API 仅支持20万个词元。此次扩展使得开发者可以在单个请求中传输超过75，000行的代码，极大提高了使用的灵活性和便利性。

7 天

华为发布 AI 推理创新技术 UCM：可实现高吞吐、低时延推理体验 ...

IT之家8 月 12 日消息，今日，华为正式发布 AI 推理创新技术 UCM（推理记忆数据管理器）。据IT之家了解，作为一款以 KV Cache 为中心的推理加速套件，UCM 融合了多类型缓存加速算法工具，分级管理推理过程中产生的 KV Cache 记忆数据，可扩大推理上下文窗口，实现高吞吐、低时延的推理体验，降低每 Token 推理成本。该技术已率先在中国银联“客户之声”“营销策划”“办公助手 ...

新浪网2 年