资讯

刘子儒博士毕业于香港城市大学数据科学专业,导师为赵翔宇教授及数学家周定轩教授。目前就职于华为香港研究所小艺团队,负责 RLVR ...
监督微调(SFT)让大模型能 “听懂指令”,但要让模型 “说的话符合人类偏好”—— 比如回答更礼貌、推理更严谨、拒绝有害请求,还需要人类反馈强化学习(RLHF)。这种从 “能做” 到 “做好” 的跨越,正是对齐技术(Aligning)的核心目标。RLHF 并非简单的 “二次训练”,而是通过人类反馈构建 “奖励信号”,让模型在试错中学会贴近人类价值观。 SFT 的局限在于它只能学到 “正确的响应”, ...
吴恩达(@AndrewYNg)近日推出了一门新课程「Post-training of LLMs」,引发了广泛关注。这门课程由华盛顿大学助理教授、NexusFlow联合创始人Banghua Zhu(@BanghuaZ)主讲,旨在为开发者和研究者提供关于如何将大型语言模型(LLM)从简单的下一个词预测转变为高效的应用助手的实用指导。
ReasonGen-R1 的训练包括两个核心阶段:监督微调阶段(SFT)以及强化学习阶段(RL)。 监督微调阶段首先构建了一个大规模图片生成推理数据集,共 ...
从数据工程到强化推理,监督微调的每一环节都决定着大模型的实际表现。本篇将系统梳理大模型微调的全流程,不仅是一次知识的深度补完,更是助力技术团队构建高质量微调体系的实战指南。 监督微调(SFT)是大模型从 “通用能力” 走向 “场景落地” 的关键一跃。如果说预训练让模型 “认识世界”,那么 SFT 就是让模型 “学会做事”—— 无论是客服对话中准确回应商品咨询,还是代码生成时精准实现需求功能,都离不 ...
最终产生7B和72B参数的MLLM,2个模型在OpenCompass多模态推理榜单上取得了优异成绩,其中72B参数模型平均得分在整体排名中位列第四,验证了Metis-RISE的可扩展性和有效性。
导语:纯蒸馏 SFT 的推理模型性能对标一众 SFT + RL 模型。 a-m-team 又发新论文了。 这个团队上周刚刚在 Hugging Face 低调开源了32B稠密模型,但在多项 ...
本届大赛以“智慧·安全·环保”为主题,覆盖全国32个赛区,吸引17.7万名学生、8.2万支队伍参赛,创历史新高。大赛分为创意作品单元和科普实验单元两大赛道。创意作品单元中,大学组聚焦“人机协作”,涵盖自然探索、文化传承等场景;中学组则以“科技改变生活”为核心,关注公共安全、健康生活等领域。科普实验单元的“未来太空车”命题,模拟太空探索任务,激发了青少年的创新思维。
DeepSeek R1 的技术报告验证了知识蒸馏+SFT的方法能够让小模型获得优越的推理能力。这种看似极具性价比的方案引发了大量关注和剖析。由于业界对 ...
2025年7月28日,由中国三星联合中国科协等单位主办的第十一届全国青年科普创新实验暨作品大赛(简称SFT科普创新大赛)全国总决赛落下帷幕。
磷脂酰乙醇胺结合蛋白(PEBP)基因家族在植物发育中至关重要,传统分为 MFT、FT、TFL 三个进化枝。研究人员通过系统基因组和微共线性网络分析 275 个植物基因组,发现 PEBP 家族第四个进化枝 SFT,其基因组背景独特,功能或与已知不同,为该家族研究提供新视角。
本报告前瞻性、适时性地对短纤维增强热塑性复合材料(SFT)行业的发展背景、供需情况、市场规模、竞争格局等行业现状进行分析,并结合多年来短纤维增强热塑性复合材料(SFT)行业发展轨迹及实践经验,对短纤维增强热塑性复合材料(SFT)行业未来的发展前景做出审慎分析与预测;是短纤维 ...