主题:DeepSeek开源了
正序浏览
主题图片汇总
主题内检索
浏览:17279 回帖:624
游客没有回帖权限
老坛泡菜
泡网分: 30.962
主题: 31
帖子: 2005
注册: 2003年10月
zyz1993 发表于 2025-01-28 13:01
请展开说说,我们是门外汉,还有一问审查着
deepseek的方法在于用大模型教小模型,最终让小模型的得分超过大模型
但这种方法,所有大模型的问题很可能会延伸到小的里面
他最主要目的就是便宜,训练便宜,运行便宜
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
云南省
资深泡菜
泡网分: 16.628
主题: 20
帖子: 20268
注册: 2008年8月
年内主力装备
★ ILCE-7RM3
★ LIO-AN00
windyboy 发表于 2025-01-28 12:39
质量不太行,这两个答案
请展开说说,我们是门外汉,还有一问审查着
zyz1993 编辑于 2025-01-28 13:02
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
北京
老坛泡菜
泡网分: 30.962
主题: 31
帖子: 2005
注册: 2003年10月
zyz1993 发表于 2025-01-28 11:13
问了DeepSeek两个问题:
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning说了些什么,解释一下
《DeepSeek-R1: In...
质量不太行,这两个答案
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
云南省
资深泡菜
泡网分: 16.628
主题: 20
帖子: 20268
注册: 2008年8月
年内主力装备
★ ILCE-7RM3
★ LIO-AN00
zyz1993 发表于 2025-01-28 11:13
问了DeepSeek两个问题:
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning说了些什么,解释一下
《DeepSeek-R1: In...
是否可以这样理解:用户的对话内容也可以变成你强化学习的内容
好的,用户问的是“是否可以这样理解:用户的对话内容也可以变成你强化学习的内容”。首先,我需要确认用户的问题核心在哪里。看起来用户想知道他们的对话内容是否会被用来作为模型进行强化学习的训练数据。接下来,我需要回顾之前的对话※※。用户之前询问了两篇关于强化学习的论文,分别是DeepSeek-R1和Reinforcement Learning with Cold Start。现在用户可能是在将之前的概念应用到当前对话的情境中,思考是否用户的互动数据会被用于模型的强化学习训练。用户可能的深层需求是关心隐私和数据使用问题,或者想了解模型如何通过交互改进自身。因此,我需要明确回答是否用户的对话内容被用于强化学习,同时解释模型当前的数据使用策略,以消除可能的疑虑。然后,我需要考虑技术细节。一般来说,像ChatGPT这样的模型在部署后,用户的交互数据可能被用于改进模型,但通常需要用户同意,并且数据会经过匿名化和聚合处理。不过,具体到强化学习,模型是否在实时对话中进行在线学习?实际上,大多数情况下,模型的训练是在离线阶段完成的,不会在每次对话中实时更新。因此,用户的单次对话内容通常不会直接成为强化学习的训练数据,除非有明确的机制和用户授权。此外,需要区分监督学习和强化学习。用户的对话内容可能用于监督学习(如微调),而强化学习通常需要奖励信号和特定的训练框架。因此,用户的对话直接作为强化学习的训练内容可能不太常见,除非有明确的奖励机制设计。还要考虑用户可能存在的误解,比如认为模型在对话过程中实时学习并调整策略。需要澄清这一点,说明训练和推理是两个不同的阶段,模型在部署后的响应是基于预训练的参数,不会实时更新。最后,总结回答时要确保信息准确,同时用通俗易懂的语言,避免技术术语过多,让用户明白他们的数据是如何被使用的,以及模型的学习机制是怎样的。可以这样理解,但需要结合具体的技术实现和隐私保护机制来解释。以下是详细说明:1. 理论上的可能性从技术角度看,用户的对话内容可以作为强化学习(Reinforcement Learning, RL)的训练数据,但需满足以下条件:反馈信号的设计:用户的对话反馈(如点赞、修改回答、主动纠错等)可以作为奖励信号,帮助模型学习优化策略。在线学习框架:如果模型支持实时更新(在线强化学习),用户的交互数据可直接用于调整模型策略。例如,如果用户在对话中明确纠正模型的错误,这种反馈可被视为一种奖励或惩罚信号,用于更新模型参数。2. 实际应用中的限制但在实际应用中,将用户对话直接用于强化学习面临以下挑战:隐私与合规性:直接使用用户对话数据可能涉及隐私问题,需严格遵守数据保※※规(如GDPR)。奖励稀疏性:用户通常不会显式提供反馈(如奖励值),因此需要设计间接的奖励信号(例如通过对话质量评估模型)。冷启动问题:在初始阶段缺乏足够的用户反馈数据,模型难以有效学习。3. 现有解决方案目前主流方法通常采用以下两种模式:(1)离线强化学习(Offline RL)使用※※对话数据(已脱敏和聚合)进行训练,而非实时用户交互。例如:基于用户对※※回答的评分数据,训练模型优化生成策略。(2)模拟环境训练构建模拟用户(Simulated User)或人工标注的反馈环境,避免直接使用真实用户数据。例如:通过人工标注的对话质量评分,训练模型生成更合理的回答。4. 用户对话如何间接影响模型训练即使用户对话不直接作为RL训练数据,仍可通过以下方式间接优化模型:监督微调(Supervised Fine-Tuning, SFT):将高质量对话数据用于微调模型。基于人类反馈的强化学习(RLHF):通过人工标注的偏好数据(如选择更好的回答)训练奖励模型,再驱动强化学习。5. 总结用户的对话内容理论上可以成为强化学习的数据来源,但实际应用中需权衡隐私、数据安全和反馈有效性。当前更常见的做法是通过离线数据或模拟环境训练模型,而非直接使用实时对话数据。对于像ChatGPT这样的产品,用户对话内容通常不会实时用于模型更新,但经脱敏和聚合后的数据可能用于长期迭代优化。如果需要进一步了解具体产品的数据使用政策,建议查阅其隐私条款(例如OpenAI明确说明了数据使用范围)。
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
北京
资深泡菜
泡网分: 16.628
主题: 20
帖子: 20268
注册: 2008年8月
年内主力装备
★ ILCE-7RM3
★ LIO-AN00
问了DeepSeek两个问题:
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning说了些什么,解释一下

《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》探讨了如何通过强化学习提升大语言模型(LLMs)的推理能力。以下是核心内容:
1. 背景与动机尽管LLMs在多种任务中表现出色,但其推理能力仍有提升空间。现有方法主要依赖监督学习,难以应对复杂推理任务。因此,研究提出通过强化学习来增强LLMs的推理能力。
2. 方法DeepSeek-R1框架结合了强化学习和推理任务,具体步骤如下:环境设置:将推理任务建模为强化学习环境,模型通过与环境互动生成推理步骤并接收反馈。奖励机制:设计奖励函数,根据推理步骤的正确性和效率给予奖励,鼓励模型生成更合理的推理路径。策略优化:使用策略梯度方法优化模型策略,使其在推理任务中表现更好。
3. 实验与结果研究在多个推理任务上测试了DeepSeek-R1,结果显示:性能提升:相比传统监督学习,DeepSeek-R1在复杂推理任务上表现更优。泛化能力:模型在未见过的任务上也展现出良好的泛化能力。效率提升:通过优化推理路径,模型在保持准确性的同时减少了推理步骤。
4. 讨论优势:强化学习能有效提升LLMs的推理能力,尤其在复杂任务中表现突出。挑战:奖励函数设计和训练稳定性仍需进一步研究。未来方向:可探索多任务学习、元学习等方法,进一步提升模型的推理能力。
5. 结论DeepSeek-R1通过强化学习显著提升了LLMs的推理能力,为未来研究提供了新的思路。
总结来说,该研究展示了强化学习在提升LLMs推理能力方面的潜力,并通过实验验证了其有效性。

Reinforcement Learning with Cold Start什么意思

"Reinforcement Learning with Cold Start" 指的是在冷启动情况下应用强化学习(Reinforcement Learning, RL)的挑战和方法。冷启动问题通常出现在系统或模型初始阶段,缺乏足够的初始数据或经验来有效学习。在强化学习中,冷启动问题尤为突出,因为智能体(agent)需要通过与环境的交互来学习策略,而在初始阶段,智能体可能对环境和任务一无所知。以下是关于“Reinforcement Learning with Cold Start”的详细解释:
1. 冷启动问题的定义冷启动问题是指智能体在初始阶段缺乏足够的※※数据或经验,导致难以做出有效的决策。在强化学习中,冷启动问题表现为:智能体对环境的动态特性(如状态转移、奖励函数)一无所知。初始策略可能是随机的或非常低效的。需要大量试错才能找到有效的策略,导致学习效率低下。
2. 冷启动问题的挑战探索与利用的权衡:在冷启动阶段,智能体需要在探索(尝试新动作以发现更好的策略)和利用(使用已知的最佳动作)之间找到平衡。样本效率低:冷启动阶段可能需要大量与环境交互的样本才能学到有效的策略,这对实际应用(如机器人控制、游戏等)来说成本较高。奖励稀疏性:在冷启动阶段,智能体可能很难获得正面的奖励信号,导致学习过程缓慢。
3. 解决冷启动问题的方法为了解决强化学习中的冷启动问题,研究者提出了多种方法:(1)基于模型的方法(Model-based RL)使用一个模型来模拟环境的动态特性,智能体可以通过模拟数据快速学习,减少对真实环境交互的依赖。例如,使用神经网络或高斯过程来建模状态转移和奖励函数。(2)预训练和迁移学习在冷启动阶段,利用预训练模型或从其他相关任务中迁移知识,帮助智能体快速适应新环境。例如,使用监督学习预训练策略网络,或从类似任务的策略中初始化参数。(3)基于示范的学习(Learning from Demonstrations)利用专家示范数据(如人类演示或其他智能体的策略)来引导智能体的初始学习。例如,使用逆强化学习(Inverse RL)或行为克隆(Behavior Cloning)来初始化策略。(4)探索策略的优化设计更高效的探索策略,帮助智能体在冷启动阶段快速发现有效的动作。例如,使用基于不确定性的探索(如贝叶斯RL)或好奇心驱动的探索(Curiosity-driven Exploration)。(5)分层强化学习(Hierarchical RL)将任务分解为多个子任务,智能体可以先学习简单的子任务,再逐步学习复杂的任务,从而缓解冷启动问题。
4. 应用场景冷启动问题在许多实际应用中都非常重要,例如:推荐系统:新用户或新物品缺乏※※数据,难以生成个性化推荐。机器人控制:机器人在新环境中需要快速学习有效的控制策略。游戏AI:智能体在新游戏中需要快速掌握规则并找到获胜策略。
5. 总结“Reinforcement Learning with Cold Start” 强调了在缺乏初始数据或经验的情况下,如何高效地应用强化学习。解决冷启动问题的方法包括基于模型的学习、迁移学习、示范学习、优化探索策略等。这些方法的目标是提高智能体在初始阶段的学习效率,减少对大量试错的依赖,从而更快地找到有效的策略。开启新对话
zyz1993 编辑于 2025-01-28 11:15
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
北京
老坛泡菜
泡网分: 30.962
主题: 31
帖子: 2005
注册: 2003年10月
DeepSeek的突破主要是训练方法上,一方面是用自小的策略变更获得最大的正确率提升,另一方面是大模型直接教小模型训练,最后小模型获得超过大模型的能力。
目前来说这都是对于整个AI学术界的巨大贡献,目前也有Open R1在试图复现deepseek的过程。
但目前我觉得有个问题,Deepseek还是需要一个绝对强的老师,如果这个老师不存在,用自己训练出来的能力强的大模型训练小模型迭代是否可行?提升的边界在哪?很值得探究
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
云南省
资深泡菜
泡网分: 16.628
主题: 20
帖子: 20268
注册: 2008年8月
年内主力装备
★ ILCE-7RM3
★ LIO-AN00
zyz1993 发表于 2025-01-27 20:33
在电脑上登录注册,没反应了。真是向歪果人示窝国威的?
半夜可以注册了,可能是服务器宕机了,,,,问了一些问题还没来得及看
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
北京
泡菜
泡网分: 2.462
主题: 127
帖子: 2235
注册: 2022年8月
妙哥 发表于 2025-01-28 08:44
这家公司主业是量化交易的研究,deepseek是副业
那么能问deepseek某股票哪个确切日子买,哪个确切日子卖吗?
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
黑龙江省
泡菜
泡网分: 2.893
主题: 53
帖子: 767
注册: 2001年11月
月内主力装备
★ Canon EOS 5D
这家公司主业是量化交易的研究,deepseek是副业
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
北京
泡菜
泡网分: 18.263
主题: 11
帖子: 15149
注册: 2012年6月
这是要这是要一鼓作气不让对面过好年啊...

登录后可直接显示原图


闲聊状态 编辑于 2025-01-28 04:26
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
山东省
陈年泡菜
泡网分: 51.722
主题: 156
帖子: 34514
注册: 2008年8月
内容贡献勋章
年内主力装备
GFX100S
LEICA M (Typ 262)
★ NIKON Z 7_2
我在本地电脑上试了
1.5B,7B,14B,32B都试了,70B太大跑不了;其实32B已经太慢了。
最简单的使用方法是这里:
https://ollama_com/library/deepseek-r1
免配置,开箱即用
arondes 编辑于 2025-01-28 00:50
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
北京
0_1
泡菜
泡网分: 8.459
主题: 20
帖子: 6464
注册: 2019年1月
duoduobear 发表于 2025-01-27 10:40
现在DeepSeek是AI领域风口浪尖上的话题,DeepSeek竟然还开源了。这种共享精神是AI高速发展的一个重要支柱。
Github链接
有人试过它吗?

这个有点意思,浙江大学的?
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
浙江省
老坛泡菜
泡网分: 44.96
主题: 21
帖子: 12987
注册: 2002年3月
Trompette 发表于 2025-01-27 13:30
Deepseek 是中国公司的智慧成果,为啥要放在梯子那头啊

刚看到前面回复的有个错别字,应该是:那个GitHub是全世界最大的开源代码和软件网站、、、

帖小广告的话它是最受人关注的场所。
臭手 编辑于 2025-01-27 21:03
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
北京
老坛泡菜
泡网分: 44.96
主题: 21
帖子: 12987
注册: 2002年3月
wxdl2006 发表于 2025-01-27 19:40
限制了,不翻打不开。

没有啊,我这挺正常的,就是那个网站一如既往的慢而已,deepseek出来之前就一直这样,有时候下载个十几M的软件得1、2个钟儿,它就是慢,但打开应该没问题。
如果用EDGE的话可以安装个插件,叫GitHbu加速,速度能快点。

登录后可直接显示原图
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
北京
资深泡菜
泡网分: 16.628
主题: 20
帖子: 20268
注册: 2008年8月
年内主力装备
★ ILCE-7RM3
★ LIO-AN00
wxdl2006 发表于 2025-01-27 19:40
限制了,不翻打不开。

在电脑上登录注册,没反应了。真是向歪果人示窝国威的?
zyz1993 编辑于 2025-01-27 20:36
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
北京
资深泡菜
泡网分: 17.602
主题: 41
帖子: 2472
注册: 2007年11月
臭手 发表于 2025-01-27 16:29
外行试了一下,感觉跟什么豆包、文心之类的差不多,而且昨天还崩了一会儿。
感觉上他们自己也没做好商业化的准备似的,好像本来只弄个模型自己测试改进加训练用的,最多在学术上进行演示交流,还没做好完全商业化的各种工作,结果没想到一家伙火爆起来,好多商业化的步...

限制了,不翻打不开。
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
湖南省
老坛泡菜
泡网分: 44.96
主题: 21
帖子: 12987
注册: 2002年3月
duoduobear 发表于 2025-01-27 10:40
现在DeepSeek是AI领域风口浪尖上的话题,DeepSeek竟然还开源了。这种共享精神是AI高速发展的一个重要支柱。
Github链接
有人试过它吗?

外行试了一下,感觉跟什么豆包、文心之类的差不多,而且昨天还崩了一会儿。
感觉上他们自己也没做好商业化的准备似的,好像本来只弄个模型自己测试改进加训练用的,最多在学术上进行演示交流,还没做好完全商业化的各种工作,结果没想到一家伙火爆起来,好多商业化的步骤还没完善,包括自家服务器也没想到有这么大流量,直接崩了。
纯外行,对算法公式之类的完全看不懂,只是从使用感觉上觉得、、、速度好像比豆包快点,内容都差不多。当然也没做什么过于专业的试用,偶也没那素材。

Trompette 发表于 2025-01-27 13:30
Deepseek 是中国公司的智慧成果,为啥要放在梯子那头啊

那是的开源软件网站,而且国内也没限制那个网站,可以正常下载。
除非不开源,否则放在那里是观众最多的一个场合。贴个相亲广告也得找大城市人多的地方帖不是,贴在自家村里才有几个人能看到啊。
(1)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
北京
泡菜
泡网分: 2.307
主题: 5
帖子: 2187
注册: 2020年5月
Deepseek 是中国公司的智慧成果,为啥要放在梯子那头啊
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
上海
陈年泡菜
泡网分: 51.722
主题: 156
帖子: 34514
注册: 2008年8月
内容贡献勋章
年内主力装备
GFX100S
LEICA M (Typ 262)
★ NIKON Z 7_2
CATWK 发表于 2025-01-27 12:23
代码就这么点儿?还以为多大一工程呢

这不是代码的问题
你要用的话 关键是下载那个权重
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
北京
泡菜
泡网分: 25.814
主题: 492
帖子: 15561
注册: 2005年11月
代码就这么点儿?还以为多大一工程呢
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
北京
泡菜
泡网分: 18.263
主题: 11
帖子: 15149
注册: 2012年6月
没能力复现

但是 已经给deepseek 充了10块钱。。。
用在编程上真是挺好,而且用API写小作文 我觉得更符合我的期望,可以调Temperature ,但是我实在不能接受超过0.6时它的发散性思维能力。。。

登录后可直接显示原图
(1)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
山东省
子版版主
泡网分: 94.589
主题: 1040
帖子: 26253
注册: 2003年10月
内容贡献勋章
现在DeepSeek是AI领域风口浪尖上的话题,DeepSeek竟然还开源了。这种共享精神是AI高速发展的一个重要支柱。

Github链接

有人试过它吗?

https://forum.xitek.com/thread-1997579-findpost-89738475.html#p_89738475

arondes:

我在本地电脑上试了
1.5B,7B,14B,32B都试了,70B太大跑不了;其实32B已经太慢了。
最简单的使用方法是这里:
https://ollama_com/library/deepseek-r1
免配置,开箱即用
arondes 编辑于 2025-01-28 00:50

https://forum.xitek.com/thread-1997579-findpost-89800121.html#p_89800121

Duoduobear:

671B 1.58bit动态

ollama run SIGJNF/deepseek-r1-671b-1.58bit:latest

注意磁盘空间,我下载中途c:盘满了。可以把Ollama模型放在其他盘上。比如D盘。需新建一个环境变量

OLLAMA_MODELS = D:\.Ollama\models

然后重启Ollama。
(2)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
美国
回复主题: DeepSeek开源了
功能受限
游客无回复权限,请登录后再试