九av三十区,国产 在线 无码 视频,国外av一区在线播放,91亚洲福利导航

国内首个对标o1的推理模型发布:DeepSeek-R1-Lite初体验!

国内首个对标o1的推理模型发布:DeepSeek-R1-Lite初体验!

cairenqiu 2025-02-16 热点新闻 5 次浏览 0个评论

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

2024年9月12日,OpenAI的首个推理模型重磅发布。从该模型的命名也可以看出,走的路和GPT系列模型不是同一条,否则它就应该被命名为了。

推理模型的推理二字,是指模型在回答问题前会主动思考,将一个复杂问题拆解为多个子问题,逐个击破,再生成最终答案。这种方式和我们人类解决难题的过程是一样的,回想如果我们面对一道数学难题,是不是也是同样的思路,先思考,然后一步步解答。这个思考过程被称为内部思维链(internal chain of thought)。关于思维链更详细的介绍,可以看我这篇文章:《》。

模型经过了思维链的加持后,在物理、化学和生物学等复杂学科的高难度基准任务上,表现几乎与博士生相当。在数学编码领域则更加出色。在国际数学奥林匹克(IMO)资格考试中,模型的正确率达到了惊人的83%,作为对比,的正确率为13%。在Codeforces编程竞赛中,的表现达到了第89百分位(即表现超过了89%的评估对象,排名前11%)。

在接下来的几个月里,国内的不少AI公司也在纷纷尝试,但更多的是在应用方面,如Kimi、智谱、天工和360的推理型AI搜索。单就推理模型而言,除了上周月之暗面(Kimi)官宣的数学推理模型,并没有太多的更新。但由于还处于PPT阶段,并未真正开放使用,真实体验如何还未可知。

然而,今天文章的主角并不是月之暗面的,而是DeepSeek(中文名:深度求索)的。和的宣传预热阶段不同,是已经切切实实发布了的对标的国产推理模型。

DeepSeek由知名量化私募幻方量化于2023年成立的AI初创公司,专注于开发通用人工智能(AGI)底层模型和技术。DeepSeek的产品和技术以开源为主,包括多个百亿级参数的模型,如、,以及混合专家模型(MoE)和。值得一提的是,该公司以高性价比和性能著称,被称为“AI界的拼多多”。比如,的API定价为每百万Tokens输入1元、输出2元。

在LMSYS聊天机器人竞技场排名榜中,目前模型综合排名为22名。

是DeepSeek于2024年11月20日发布的推理模型,目前已经发布的为预览版(和OpenAI的一样)。根据DeepSeek官方介绍,R1系列模型使用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字。该系列模型在数学、代码以及各种复杂逻辑推理任务上,取得了媲美的推理效果,并为用户展现了没有公开的完整思考过程。

下面是DeepSeek官方放出的基准测试对比图。

目前在DeepSeek官网上免费可用,每用户每天使用数量限制为50次。在这里不得不吐槽Kimi探索版,每人每天只能用5次,我做个测试还得分几天才能测试完。

DeepSeek官网:https://chat.deepseek.com/

国内首个对标o1的推理模型发布:DeepSeek-R1-Lite初体验!另外需要指出的是,和一样,也是个纯文本模型,目前不支持解析文件。

1. 几何推理

一个圆的半径为10,在其内部随机选择两点,计算这两点之间的平均距离。

先上结果。这道需要用到积分的题目结果完全正确

附上长达61秒的思考过程。

2. 组合数学

一个班有12名男生和10名女生,要从中选出6人组成一个小组,要求至少有2名女生,问有多少种不同的选法?

19秒就得到了答案65769,完全正确。并且还附上了一个反向思考的验证过程,有点厉害。

3. 逻辑推理

观察以下数列,推断规律并预测下一个数字:2,6,15,31,56

这道题目,相邻数字的差值为递增的平方数4,9,16,25。所以下一个数字应该是56加36,92。回答正确

4. 真假话推理

三个囚犯 A、B 和 C,分别戴着红帽或蓝帽(但无法看到自己的帽子)。守卫说:“至少有一个囚犯戴着红帽。” A 说:“我不知道我的帽子颜色。” B 说:“我也不知道。” C 说:“我知道了。” 问 C 的帽子是什么颜色?

总算有一道题难倒了,回答错误。这道题其实可以简单思考,只有A蓝B蓝的情况下,C才能根据“至少有一个红帽”来断定自己的帽子颜色。所以C应该是红色。

经过检查的思维链,我发现它把自己绕进去了,直到最后也没能绕出来,属于“过度思考”了。

作为对比,附上的答案。

在测试过程中,我还遇到了中英文思考、输出混乱的问题。但综合来看,已经展现出了一个推理模型应有的推理能力,并且还是免费使用,值得尝试。



都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。

转载请注明来自石家庄天鲲化工设备有限公司 ,本文标题:《国内首个对标o1的推理模型发布:DeepSeek-R1-Lite初体验!》

百度分享代码,如果开启HTTPS请参考李洋个人博客
每一天,每一秒,你所做的决定都会改变你的人生!

发表评论

快捷回复:

验证码

评论列表 (暂无评论,5人围观)参与讨论

还没有评论,来说两句吧...

Top
 筋膜炎最新  最新pr利率  最新小鸡答案  最新封路通路  开创国际最新  湖人队比赛最新  疫苗最新成果  最新影院伦  峰哥最新  最新湖北疑似  最新疫情溯源  最新复工规定  最新疫情时评  最新病菌症状  最新通告苏州  最新利率信息  最新故宫事  阿里发布最新  扬州最新规定  最新临沂疫情  渑池最新肺炎  最新恶搞大片  凉山疫情最新  盾娘最新  最新疫情故事  龙海最新命案  最新逆行信息  日本悬疑最新  疫情最新公布 
主站蜘蛛池模板: 会昌县| 岳池县| 新闻| 合江县| 东安县| 湘阴县| 乐平市| 齐齐哈尔市| 侯马市| 宕昌县| 水城县| 新干县| 万盛区| 闽清县| 拉孜县| 许昌县| 延吉市| 阿克苏市| 沅陵县| 万盛区| 开远市| 石城县| 阿合奇县| 镶黄旗| 阳谷县| 昭通市| 左权县| 西宁市| 敖汉旗| 凤凰县| 中西区| 叶城县| 偏关县| 九台市| 义乌市| 鄱阳县| 黄浦区| 教育| 金平| 保靖县| 兰西县|