reinforcement - 搜索 News

资讯

近年来, 大语言模型 (LLM) 在数学、编程等 "有标准答案" 的任务上取得了突破性进展, 这背后离不开 "可验证奖励" (Reinforcement Learning with Verifiable Rewards, RLVR) ...

4 天

昆明艾维眼科成功实施首例后巩膜加固术

近日，昆明艾维眼科医院成功完成本院首例后巩膜加固术（Posterior Scleral Reinforcement, ...

华尔街见闻 on MSN6 天

阿里Qwen提出强化学习新算法GSPO

据通义千问Qwen，为了能够持续拓展强化学习（Reinforcement Learning，RL），提出了Group Sequence Policy Optimization (GSPO) ...

15 天

腾讯7B模型情商飞跃，RLVER框架引领对话AI新潮流

总之，腾讯混元AI数字人团队的RLVER框架为情商的AI对话模型优化开辟了新路径，其成功不仅在于技术的突破，更在于对用户体验的深刻理解与尊重。随着这一技术的开源，未来的对话AI有望在情感交流上达到新的高度，为人机交互带来更加自然和温暖的体验。返回搜狐，查看更多 ...

17 天

143亿！英伟达AMD联手投出史上最大种子轮

智东西7月16日消息，今日，前OpenAI首席技术官Mira Murati 创办的AI公司 Thinking Machines Lab （简称TML）宣布完成 20亿美元种子轮融资（约合人民币143.46亿元），由a16z领投，NVIDIA、Accel、ServiceNow、CISCO、AMD、Jane Street等参投。

IT之家2月

QwenLong-L1-32B 模型登场：阿里通义千问首个强化学习 ...

阿里通义千问 Qwen 团队昨日（5 月 26 日）发布 QwenLong-L1-32B 模型，是其首个通过强化学习训练的长文本情境推理模型（LRM）。

IT之家4月

感谢 DeepSeek：Predibase 发布全球首个端到端强化微调 ...

Predibase 表示，DeepSeek-R1 的开源在全球 AI 领域产生了巨大影响，让很多人意识到强化学习微调对训练大模型的重要性。受此启发，他们开发了这个端到端无服务器强化微调平台。

GitHub4月

Deep Reinforcement Learning for Automated Stock Trading ... - GitHub

Deep Reinforcement Learning for Automated Stock Trading (Ensemble Strategy) 本项目为本人2024.12在某基金量化部门实习时的所完成,和公司达成一致后开源代码.

GitHub8月

训练参数说明 · shibing624/MedicalGPT Wiki · GitHub

MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型，实现了包括增量预训练(PT)、有监督微调(SFT)、RLHF、DPO、ORPO、GRPO。 - shibing624/MedicalGPT ...

51CTO1 年

从零实现大模型-RLHF：Reinforcement Learning from Human Feedback

(RLHF：Reinforcement Learning from Human Feedback)：即基于人类反馈信息，通过强化学习方式优化语言模型，使其产生更符合人类偏好和价值观的回应，从而提高模型的实用性和安全性。

unite1 年

什么是深度强化学习？ - 联合人工智能 - Unite.AI

什么是深度强化学习？除了无监督机器学习和监督学习之外，人工智能创造的另一种常见形式是强化学习。除了常规的强化学习之外，深度强化学习由于它结合了深度学习和强化学习的最佳方面，因此可以带来令人惊讶的令人印象深刻的结果。让我们具体看看深度强化学习是如何运作的。

Microsoft6 年

WMT 2019国际机器翻译大赛：微软亚洲研究院以8项第一 ...

近日，由国际计算语言学协会ACL（The Association for Computational Linguistics）举办的WMT 2019国际机器翻译比赛的客观评测结果揭晓 (opens in new tab)，微软亚洲研究院机器学习组在参加的11项机器翻译任务中，有8项获得了第一名，另外3项获得第二名，凭借多维度的技术创新成为冠军团队。 WMT的全称为Conference on ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果