DeepSeek-R1模型训练方法发布-快报
时间:2025-09-18 12:13:43来源:科技日报


(相关资料图)

DeepSeek-AI团队梁文锋及其同事17日在《自然》杂志上发表了开源人工智能(AI)模型DeepSeek-R1所采用的大规模推理模型训练方法。研究表明,大语言模型(LLM)的推理能力可通过纯强化学习来提升,从而减少增强性能所需的人类输入工作量。训练出的模型在数学、编程竞赛和STEM领域研究生水平问题等任务上,比传统训练的LLM表现更好。

DeepSeek-R1包含一个在人类监督下的深入训练阶段,以优化推理过程。梁文锋团队报告称,该模型使用了强化学习而非人类示例来开发推理步骤,减少了训练成本和复杂性。DeepSeek-R1在被展示优质的问题解决案例后,会获得一个模板来产生推理过程,即这一模型通过解决问题获得奖励,从而强化学习效果。团队总结说,未来研究可以聚焦优化奖励过程,以确保推理和任务结果更可靠。

在评估AI表现的数学基准测试中,DeepSeek-R1-Zero和DeepSeek-R1得分分别为77.9% 和 79.8%,在编程竞赛及研究生水平的生物学、物理和化学问题上同样表现优异。

标签:

最新
  • DeepSeek-R1模型训练方法发布-快报

    DeepSeek-AI团队梁文锋及其同事17日在《自然》杂志上发表了开源人工

  • 事关育儿补贴及生育支持措施,国新办将于30日举行发布会

    国务院新闻办公室定于明天(30日)14时举行新闻发布会,请国家卫生

  • 人工智能品牌如何“出圈”?专家:核心要素是技术创新,文化符号与科技产品深度融合

    记者7日获悉,在第二届长三角国际品牌创新发展大会暨2025长三角人工

  • 迅雷宣布完成对虎扑的收购

    近日,深圳市迅雷网络技术有限公司发布公告称,已完成对上海匡慧网

  • 吸烟不往肺里吸就无害?细支烟危害更低?这些戒烟误区你别中招

    5月31日是世界无烟日,国家卫生健康委今天发布2024年我国烟草流行监

  • 一季度经满洲里口岸出口新鲜果蔬同比增逾三成

    满洲里海关26日消息称,近年来,作为中国最大陆路口岸的满洲里口岸

  • “盛世·礼赞”西藏工艺美术作品巡展在拉萨开幕

    4月9日,盛世·礼赞西藏工艺美术作品区内巡展在拉萨开幕。此次巡展

  • “蜀道三国 山水关城” 广元市昭化区亮相《300秒看家乡》

     近日,四川省广元市昭化区委书记王静走进《300秒看家乡》节目

  • 千年晋祠举办文昌宫启智礼

    中新社太原3月2日电 (记者 胡健)农历二月初三,是文昌帝君诞辰日

  • 山东晒2024年考古“成绩单” 主动发掘项目数量为历年最多

    山东省文化和旅游厅(山东省文物局)18日在济南召开2024年度全省田野

  • 地毯可以用洗衣机洗吗?自己在家怎么洗大块地毯?

    地毯可以用洗衣机洗吗?1、一般来说,小的地毯,例如门垫等,是可以

  • 2024年楼市“止跌回稳”:热点城市成交量连创新高

    2024年楼市止跌回稳:热点城市成交量连创新高,地王再现,民企重燃

  • 市场监管总局公布五起侵犯商业秘密典型案例

    中新网12月31日电 据市场监管总局微信公众号消息,加强商业秘密保

  • 纳指收涨1.35%重回2万点 特斯拉涨超7%

    中新经纬12月25日电 美东时间周二,美股因假期提前收盘,纳指重回2

  • 月带货额上百万元 无声直播间“听障主播”努力被看见

    写满提示的白板,快速挥动的双手,略显夸张的表情……除了拿取商品

  • 今年前10月邮政行业寄递业务量同比增长19.9%

    中新网11月15日电 据国家邮政局网站消息,国家邮政局11月15日公布2

  • 旅游
    • 环球今日讯!金融政策有力支持实体经济发展(经济聚焦)

    • 【全球独家】中国铁路12306已累计售出黄金周车票1.1亿张

    • 【天天报资讯】浙江渐绘现代化新图景

    • WTT赛前石景山掀起乒乓热 环球焦点