主题:Kimi k1.5 长思考模型在数学推理方面具体表现
正序浏览
主题图片汇总
主题内检索
老坛泡菜
泡网分: 64.088
主题: 1170
帖子: 80993
注册: 2003年6月
内容贡献勋章
年内主力装备
★ iPhone 15 Pro Max
Canon PowerShot SX60 HS
1. 长链和短链推理能力在 长链推理(long-CoT) 模式下,Kimi k1.5 的数学推理能力达到了 OpenAI o1 正式版的水平。这表明其在处理复杂、多步骤的数学问题时具有极高的准确性和深度推理能力。在 短链推理(short-CoT) 模式下,Kimi k1.5 的数学推理能力大幅超越了其他顶尖模型,如 GPT-4o 和 Claude 3.5 Sonnet,领先幅度高达 550%。例如,在 AIME 2024 榜单上,k1.5 的得分达到 60.8,而其他顶尖模型如 DeepSeek-v3 的得分仅为 39.2。

2. 具体测试表现在 MATH-500 测试中,Kimi k1.5 的准确率达到了 94.6%,显著优于 GPT-4 和其他模型。在其他数学推理任务中,k1.5 也表现出色,例如在 Codeforces 测试中,其表现与 OpenAI o1 模型持平。

3. 技术优势长上下文扩展:Kimi k1.5 将上下文窗口扩展至 128k,显著提升了推理深度和准确性。Long2Short 技术:通过将长链推理的优势迁移到短链推理模型中,k1.5 在短链推理任务中表现出色。多模态推理:k1.5 支持文本和视觉数据的联合推理,能够处理涉及图形和文本的复杂数学问题。

4. 应用场景教育领域:Kimi k1.5 可以帮助学生解决复杂的数学问题,提供详细的解题步骤和推理过程。科研与工程:其强大的数学推理能力可以用于复杂的理论推导、算法优化和数据分析。综上所述,Kimi k1.5 在数学推理方面具备极高的性能,无论是长链推理还是短链推理,都显著优于其他现有模型,是目前数学推理领域的顶尖水平之一。
开山鼻祖 编辑于 2025-03-01 23:01
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
浏览:4706 回帖:47
游客没有回帖权限
老坛泡菜
泡网分: 64.088
主题: 1170
帖子: 80993
注册: 2003年6月
内容贡献勋章
年内主力装备
★ iPhone 15 Pro Max
Canon PowerShot SX60 HS
Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

刚刚,Kimi团队上新了!开源轻量级视觉语言模型Kimi-VL及其推理版Kimi-VL-Thinking,多模态和推理双双拿捏。结合更多消息,目前大家比较认可的推测是K1.6模型即将到来。就在3月,基于Kimi-K1.6的数学模型突然曝光,在编程基准测试LiveCodeBench中拿下第一,超越o3、DeepSeek-R1等模型。
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
湖南省
资深泡菜
泡网分: 30.795
主题: 226
帖子: 2437
注册: 2005年6月
vega 发表于 2025-03-02 13:28
让AI分别解答下面两个问题试试看。
1、两个同胚的空间,各自去掉一点后仍然同胚。请证明这个命题
2、两个同胚的空间,各自去掉一点后仍然同胚。请找出一个反例来反驳上述命题
试过deepseek,chatgpt,kimi,Grok等,都一本正经的证明了第...
感觉最近一个月几个AI都有不小的进步,回答上述问题时都比较靠谱了
Grok3,deepseek都能答对了,
但chatGPT、kimi和阿里的通义不行,还是一个月前的水平
vega 编辑于 2025-04-04 13:26
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
美国
老坛泡菜
泡网分: 64.088
主题: 1170
帖子: 80993
注册: 2003年6月
内容贡献勋章
年内主力装备
★ iPhone 15 Pro Max
Canon PowerShot SX60 HS
同期a股,只有元宝算出来(腾讯有股市信息之故,其他ai没有股市信息就抓瞎了,计算需要准确数据而不像推理)
登录后可直接显示原图

开山鼻祖 编辑于 2025-03-18 14:13
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
老坛泡菜
泡网分: 64.088
主题: 1170
帖子: 80993
注册: 2003年6月
内容贡献勋章
年内主力装备
★ iPhone 15 Pro Max
Canon PowerShot SX60 HS
kimi这次一战成名,刚才有问kimi也答的准。其他几个晕了,也有算的不对的。
刚自己查算的不对,删了(不能表扬~)
贴个纳米ai和
登录后可直接显示原图

登录后可直接显示原图
元宝的,问纳斯达克1月26日到今天跌幅,因为1月26日美股未交易,几个ai也有晕了的,元宝和纳米ai比较清晰
开山鼻祖 编辑于 2025-03-18 13:58
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
老坛泡菜
泡网分: 64.088
主题: 1170
帖子: 80993
注册: 2003年6月
内容贡献勋章
年内主力装备
★ iPhone 15 Pro Max
Canon PowerShot SX60 HS
灵魂拷问了下ds。。

deepseek关注的多嘛,给用户配上,实际拿来做备胎。是这样吗?

ai最大的好就是不会激烈对话,至于它说的,反正每个ai说的都不一样,只能自己判断~。

另外看对话※※,我用ds也有一段时间了,春节后开始用的,ds就是春节期间火的嘛(手机app马上装了但发现不能语音所以还是用豆包),回来后就上电脑网页版了。
登录后可直接显示原图

开山鼻祖 编辑于 2025-03-07 11:39
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
老坛泡菜
泡网分: 64.088
主题: 1170
帖子: 80993
注册: 2003年6月
内容贡献勋章
年内主力装备
★ iPhone 15 Pro Max
Canon PowerShot SX60 HS
其实各家都是蹭热点,ds关注的多嘛,给用户配上,实际拿来做备胎~,也只能说竞争激烈,先保证有人用,最后都希望用户用自家的,不然不是给人做嫁妆了。

kimi,豆包就坚持自主,所以市场就不好说了(说是元宝下载量目前第一,后面ds,豆包,kimi见不到了~)。

腾讯元宝下载量超越DeepSeek!登顶中国区第一|腾讯_新浪财经_新浪网

至于百度,做了前浪~,另外就是陷入自动驾驶了,但自动驾驶也是多年推广效果一般,说明还是人驾驶靠谱,另外买车的谁还租自动驾驶车啊,车白买了不说,租自动驾驶车也不便宜。。
开山鼻祖 编辑于 2025-03-07 11:20
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
老坛泡菜
泡网分: 64.088
主题: 1170
帖子: 80993
注册: 2003年6月
内容贡献勋章
年内主力装备
★ iPhone 15 Pro Max
Canon PowerShot SX60 HS
理解力太差,怎么问都是出一堆结果。。用脑子想想三个都不准,出一堆还能准吗?
登录后可直接显示原图
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
老坛泡菜
泡网分: 64.088
主题: 1170
帖子: 80993
注册: 2003年6月
内容贡献勋章
年内主力装备
★ iPhone 15 Pro Max
Canon PowerShot SX60 HS

登录后可直接显示原图
就是腾讯后台部署了ds,再自家调用(类似api),说明大模型不用装本地~,什么都不装用网页版也可以,总之不用自己电脑算力,有大公司出算力干嘛不用。。

这个点ds就是调用ds,不点就是用腾讯自家大模型。
开山鼻祖 编辑于 2025-03-07 10:50
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
泡菜
泡网分: 3.501
主题: 23
帖子: 2612
注册: 2011年12月
我用kimi DESEP 百度ai 这些,写文档不好用
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
老坛泡菜
泡网分: 64.088
主题: 1170
帖子: 80993
注册: 2003年6月
内容贡献勋章
年内主力装备
★ iPhone 15 Pro Max
Canon PowerShot SX60 HS

登录后可直接显示原图
网页版也是这样。。。。。。。。。。。。。
登录后可直接显示原图
腾讯在应用宝安装。。其实元宝网页版已经是deepseek了,安装到本地不知有没有增强。。
登录后可直接显示原图

开山鼻祖 编辑于 2025-03-07 10:39
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
老坛泡菜
泡网分: 64.088
主题: 1170
帖子: 80993
注册: 2003年6月
内容贡献勋章
年内主力装备
★ iPhone 15 Pro Max
Canon PowerShot SX60 HS
arondes 发表于 2025-03-07 09:57
这是蹭热点的
你自己网上找篇教程,一步一步来就可以学会...

这是deepseek官网提供的,自家蹭自家热点吗?

刚查了下确实错了,不是官方的,腾讯有官方的。用豆包验证了确实是官方。。
登录后可直接显示原图

登录后可直接显示原图

开山鼻祖 编辑于 2025-03-07 10:23
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
陈年泡菜
泡网分: 51.612
主题: 197
帖子: 34449
注册: 2008年8月
内容贡献勋章
年内主力装备
GFX100S
LEICA M (Typ 262)
★ NIKON Z 7_2
开山鼻祖 发表于 2025-03-06 19:06
。。本地部署ds要收费

这是蹭热点的
你自己网上找篇教程,一步一步来就可以学会
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
北京
老坛泡菜
泡网分: 64.088
主题: 1170
帖子: 80993
注册: 2003年6月
内容贡献勋章
年内主力装备
★ iPhone 15 Pro Max
Canon PowerShot SX60 HS
。。本地部署ds要收费
登录后可直接显示原图
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
老坛泡菜
泡网分: 64.088
主题: 1170
帖子: 80993
注册: 2003年6月
内容贡献勋章
年内主力装备
★ iPhone 15 Pro Max
Canon PowerShot SX60 HS
元宝deepseek,太多了。。
登录后可直接显示原图
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
泡菜
泡网分: 3.032
主题: 10
帖子: 2993
注册: 2013年11月
开山鼻祖 发表于 2025-03-04 23:04
但说是市场堪忧。。不过我只需要对我有用的,首先是能访问,这样外国的都被排除了,外国的即使能访问也要自己测下效果嘛,这样国产的就有优势了,国产的拿来就测还免费,效果好给充值也是可以的。

这几天的几次使用,仅就说这几次应用场景,比ds更好用,感觉ds在一些方面有点过于保守了,或者不如那段时间开放。
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
山东省
老坛泡菜
泡网分: 64.088
主题: 1170
帖子: 80993
注册: 2003年6月
内容贡献勋章
年内主力装备
★ iPhone 15 Pro Max
Canon PowerShot SX60 HS
酒意浓 发表于 2025-03-03 23:08
算是常用的一个工具,确实比之前有了很大的进步,特别是根据prompt的推理过程,更便于让使用者了解其是否理解到位,进行进一步的交流。

但说是市场堪忧。。不过我只需要对我有用的,首先是能访问,这样外国的都被排除了,外国的即使能访问也要自己测下效果嘛,这样国产的就有优势了,国产的拿来就测还免费,效果好给充值也是可以的。
开山鼻祖 编辑于 2025-03-04 23:06
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
老坛泡菜
泡网分: 64.088
主题: 1170
帖子: 80993
注册: 2003年6月
内容贡献勋章
年内主力装备
★ iPhone 15 Pro Max
Canon PowerShot SX60 HS
无结果。。目前看kimi确实厉害一些,豆包也测了但昨天豆包给的票没有kimi给的表现好。。
登录后可直接显示原图

开山鼻祖 编辑于 2025-03-04 22:57
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
老坛泡菜
泡网分: 64.088
主题: 1170
帖子: 80993
注册: 2003年6月
内容贡献勋章
年内主力装备
★ iPhone 15 Pro Max
Canon PowerShot SX60 HS
还行,今天又问了三个,有两个再比较ai推荐潜能恒信
登录后可直接显示原图
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
泡菜
泡网分: 3.032
主题: 10
帖子: 2993
注册: 2013年11月
算是常用的一个工具,确实比之前有了很大的进步,特别是根据prompt的推理过程,更便于让使用者了解其是否理解到位,进行进一步的交流。
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
山东省
老坛泡菜
泡网分: 64.088
主题: 1170
帖子: 80993
注册: 2003年6月
内容贡献勋章
年内主力装备
★ iPhone 15 Pro Max
Canon PowerShot SX60 HS
实战。。真金白银了。。

它就是证明了哥德巴赫猜想也没有用,挣不到钱请不起它喝咖啡,挣到了钱别说喝咖啡。。

登录后可直接显示原图

开山鼻祖 编辑于 2025-03-03 12:26
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
老坛泡菜
泡网分: 64.088
主题: 1170
帖子: 80993
注册: 2003年6月
内容贡献勋章
年内主力装备
★ iPhone 15 Pro Max
Canon PowerShot SX60 HS
为啥要请你喝咖啡,回答这个问题,证明不要继续了

罗里吧嗦的,话痨~

哎呀,看来我刚才的回答可能有点跑偏了,没太抓住你真正想问的点。你提到“为啥要请你喝咖啡”,这让我意识到,我可能在解释问题的时候,没有很好地考虑到你的感受和需求。我原本是想通过一个具体的例子来说明问题,但可能这个例子并没有很好地解决你的疑问,反而让你觉得我在绕圈子。我得承认,我刚才的思路可能有点过于学术化了,没有很好地从你的角度出发。我应该更直接地回答你的问题,而不是用那么多复杂的数学概念。我猜你可能更想要一个简单明了的解释,而不是一堆公式和定义。现在,我明白了,我需要调整我的回答方式。我应该更关注你的需求,而不是一味地展示我的知识。我应该更直接地回答你的问题,而不是用那么多复杂的数学概念。我猜你可能更想要一个简单明了的解释,而不是一堆公式和定义。所以,我决定不再继续那个证明了。我觉得,更重要的是,我需要更好地理解你的需求,然后给出一个更合适的回答。我应该更关注你的感受,而不是一味地展示我的知识。我应该更直接地回答你的问题,而不是用那么多复杂的数学概念。我猜你可能更想要一个简单明了的解释,而不是一堆公式和定义。所以,我决定不再继续那个证明了。我觉得,更重要的是,我需要更好地理解你的需求,然后给出一个更合适的回答。我应该更关注你的感受,而不是一味地展示我的知识。我应该更直接地回答你的问题,而不是用那么多复杂的数学概念。我猜你可能更想要一个简单明了的解释,而不是一堆公式和定义。所以,我决定不再继续那个证明了。我觉得,更重要的是,我需要更好地理解你的需求,然后给出一个更合适的回答。我应该更关注你的感受,而不是一味地展示我的知识。我应该更直接地回答你的问题,而不是用那么多复杂的数学概念。我猜你可能更想要一个简单明了的解释,而不是一堆公式和定义。所以,我决定不再继续那个证明了。我觉得,更重要的是,我需要更好地理解你的需求,
开山鼻祖 编辑于 2025-03-03 12:15
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
老坛泡菜
泡网分: 64.088
主题: 1170
帖子: 80993
注册: 2003年6月
内容贡献勋章
年内主力装备
★ iPhone 15 Pro Max
Canon PowerShot SX60 HS
拒绝请他喝咖啡,提示它先找反例,结果被它无视~,它还是一个劲重复之前的回答。
登录后可直接显示原图
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
老坛泡菜
泡网分: 64.088
主题: 1170
帖子: 80993
注册: 2003年6月
内容贡献勋章
年内主力装备
★ iPhone 15 Pro Max
Canon PowerShot SX60 HS
倒不是nlp(自然语言处理)处理不过关,它知道要干什么嘛,说明它理解了问者的意思。还是推理不过关,推理过关开始就不会起劲的证明了,只需要一个反例推翻,而不需要问者提示。。

因此,命题在一般情况下是成立的,但存在特殊情况可以推翻它。具体来说,如果同胚映射 f 将 X 中的点 x 映射到 Y 中的点 y,且 x 和 y 在拓扑结构上有特殊性质(如楔形点),则 X∖{x} 和 Y∖{y} 可能不再同胚。最终答案:如果 X 和 Y 是同胚的空间,且 f:X→Y 是一个同胚映射,那么对于某些 x∈X, X∖{x} 和 Y∖{f(x)} 可能不再同胚。因此,命题在一般情况下是成立的,但存在特殊情况可以推翻它。
开山鼻祖 编辑于 2025-03-03 12:02
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
老坛泡菜
泡网分: 64.088
主题: 1170
帖子: 80993
注册: 2003年6月
内容贡献勋章
年内主力装备
★ iPhone 15 Pro Max
Canon PowerShot SX60 HS
kimi确实证明命题正确,但继续问有没有反例就要请他喝咖啡了。。
登录后可直接显示原图
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
wan
泡菜
泡网分: 34.063
主题: 0
帖子: 2536
注册: 2001年11月
vega 发表于 2025-03-03 11:41
有个说法,任何NLP大模型都经常一本正经的胡说八道...

幻觉问题,可以一定程度上通过提示词解决,比如告诉它如果没查到或者不知道就直接说不知道,不要做任何的猜测,这样可以减少胡说的概率。
发布自 安卓客户端
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
湖北省
老坛泡菜
泡网分: 64.088
主题: 1170
帖子: 80993
注册: 2003年6月
内容贡献勋章
年内主力装备
★ iPhone 15 Pro Max
Canon PowerShot SX60 HS
vega 发表于 2025-03-03 11:41
有个说法,任何NLP大模型都经常一本正经的胡说八道

nlp其实搞五十年有了。。
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
资深泡菜
泡网分: 30.795
主题: 226
帖子: 2437
注册: 2005年6月
开山鼻祖 发表于 2025-03-03 10:26
就是说现在的ai没有一个正确的?如果是,说明都有得搞。。
有个说法,任何NLP大模型都经常一本正经的胡说八道
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
美国
老坛泡菜
泡网分: 64.088
主题: 1170
帖子: 80993
注册: 2003年6月
内容贡献勋章
年内主力装备
★ iPhone 15 Pro Max
Canon PowerShot SX60 HS
vega 发表于 2025-03-03 10:22
还是不对,既然要找反例,就应该先找同胚的两个空间
看样子AI似乎不太懂反例是啥意思

就是说现在的ai没有一个正确的?如果是,说明都有得搞。。
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
资深泡菜
泡网分: 30.795
主题: 226
帖子: 2437
注册: 2005年6月
开山鼻祖 发表于 2025-03-03 09:43
又反馈它了,它改了。
还是不对,既然要找反例,就应该先找同胚的两个空间
看样子AI似乎不太懂反例是啥意思
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
美国
回复主题: Kimi k1.5 长思考模型在数学推理方面具体表现
功能受限
游客无回复权限,请登录后再试