主题:DeepSeek开源了
正序浏览
主题图片汇总
主题内检索
浏览:16762 回帖:614
游客没有回帖权限
子版版主
泡网分: 94.57
主题: 1039
帖子: 26235
注册: 2003年10月
内容贡献勋章
windyboy 发表于 2025-02-15 21:26
7万就可以有r1,老黄是真该跌

DeekSeek这次火热一轮,老黄肯定又多赚很多。
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
美国
老坛泡菜
泡网分: 30.962
主题: 31
帖子: 2005
注册: 2003年10月
Trompette 发表于 2025-02-15 17:36
CPU: Intel (R) Xeon (R) Gold 6454S 1T DRAM (2 NUMA nodes) 【20k】
GPU: 4090D 24G VRAM   》改成 4090 魔改 48G 【22k】
Memory: standard ...

7万就可以有r1,老黄是真该跌
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
泡菜
泡网分: 2.289
主题: 5
帖子: 2171
注册: 2020年5月
虚化 发表于 2025-02-15 16:42
https://kvcache-ai.github.io/ktransformers/en/DeepseekR1_V3_tutorial.html
Local 671B DeepSeek-Coder-V3/R1: Running its Q4_K_M...

CPU: Intel (R) Xeon (R) Gold 6454S 1T DRAM (2 NUMA nodes) 【20k】
GPU: 4090D 24G VRAM   》改成 4090 魔改 48G 【22k】
Memory: standard DDR5-4800 server DRAM (1 TB) 【18k】
再加电源【3k】,机箱【2k】,SSD 硬盘【4k】,全套差不多 7万
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
印度
陈年泡菜
泡网分: 110.325
主题: 129
帖子: 33098
注册: 2002年12月
年内主力装备
★ NIKON Z6_3
NIKON Z 9
NIKON Z f
duoduobear 发表于 2025-02-15 15:31
8卡H100 或 8卡H800
前几天和我一位朋友聊起来,他也在部署了DeepSeek,8卡H800。


windyboy 发表于 2025-02-15 16:10
https://zhuanlan.zhihu.com/p/714877271
https://github_com/kvcache-ai/ktransformers
我自己没有检验过,纯推

感觉电脑城做组装机的又有生意了。
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
资深泡菜
泡网分: 32.624
主题: 130
帖子: 7227
注册: 2004年11月
windyboy 发表于 2025-02-15 16:11
但就在近期,清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目公布更新:
支持24G显存在本地运行DeepSeek-R1、V3的671B满血版。预处理速度最高达到286 tokens/s,推理生成速度最高能达到14 ...

https://kvcache-ai.github.io/ktransformers/en/DeepseekR1_V3_tutorial.html

Local 671B DeepSeek-Coder-V3/R1: Running its Q4_K_M version using only 14GB VRAM and 382GB DRAM.
这是量化到int4后模型缩小到只需要382G内存,所以满血是要打个引号的

We run our best performance tests (V0.2) on
CPU: Intel (R) Xeon (R) Gold 6454S 1T DRAM (2 NUMA nodes)
GPU: 4090D 24G VRAM
Memory: standard DDR5-4800 server DRAM (1 TB)
测试结果是双路32核CPU 13.69t/s,单路32核CPU 10.3t/s
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
福建省
老坛泡菜
泡网分: 30.962
主题: 31
帖子: 2005
注册: 2003年10月
duoduobear 发表于 2025-02-15 15:31
8卡H100 或 8卡H800
前几天和我一位朋友聊起来,他也在部署了DeepSeek,8卡H800。

但就在近期,清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目公布更新:
支持24G显存在本地运行DeepSeek-R1、V3的671B满血版。预处理速度最高达到286 tokens/s,推理生成速度最高能达到14 tokens/s
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
老坛泡菜
泡网分: 30.962
主题: 31
帖子: 2005
注册: 2003年10月
dongdong603 发表于 2025-02-15 15:14
谁能给个671b的最优配置?

https://zhuanlan.zhihu.com/p/714877271
https://github_com/kvcache-ai/ktransformers
我自己没有检验过,纯推
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
子版版主
泡网分: 94.57
主题: 1039
帖子: 26235
注册: 2003年10月
内容贡献勋章
dongdong603 发表于 2025-02-15 15:14
谁能给个671b的最优配置?


8卡H100 或 8卡H800
前几天和我一位朋友聊起来,他也在部署了DeepSeek,8卡H800。
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
美国
泡菜
泡网分: 1.771
主题: 86
帖子: 1351
注册: 2020年10月
windyboy 发表于 2025-02-15 14:58
正常,总体上来说占训练资料数量小,而且谈论数量也少
没缺少资料的情况下,模型当然就是幻想
现在模型最大的问题就是生成的东西怎么审核, 如果是不懂自行车的人看到答案自然也不会分辨


嗯,我也是这么理解的。这个问题无解也就不再纠结了。
我现在关心的是RAG,利用deepseek模型的理解+推理能力,对自建知识库的消化能取得什么样的效果?
最近看了一些资料,才知道RAG不是用来做全文检索、通篇分析的
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
重庆
陈年泡菜
泡网分: 110.325
主题: 129
帖子: 33098
注册: 2002年12月
年内主力装备
★ NIKON Z6_3
NIKON Z 9
NIKON Z f
虚化 发表于 2025-02-14 23:34
671b首先要500g左右内存,其次需要12通道500GB/s级别的内存带宽,这两项就是大几万的工作站才能有的,家用还是太贵

谁能给个671b的最优配置?
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
老坛泡菜
泡网分: 30.962
主题: 31
帖子: 2005
注册: 2003年10月
一晴方觉夏深 发表于 2025-02-15 13:04
本地部署的32b也会胡说八道,是不是公路自行车运动太偏门?
ps: 温度设置为0.2

正常,总体上来说占训练资料数量小,而且谈论数量也少
没缺少资料的情况下,模型当然就是幻想

现在模型最大的问题就是生成的东西怎么审核, 如果是不懂自行车的人看到答案自然也不会分辨
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
泡菜
泡网分: 26.594
主题: 17
帖子: 1920
注册: 2003年12月
duoduobear 发表于 2025-02-14 23:52
跑AI,很少有人提3090,用4090和22G 2080 Ti的则很普遍。
3090是不是本身出货量就小?
开发人员用得还是比较多的,主要缺点是功耗,除核心是三星8nm垃圾制程外,3090显存是ddr6x,比ddr6热很多。而且3090显存焊在电路板两面,背面那些散热不足。3090Ti用2G一颗的显存颗粒,只焊在主板正面,散热好一些,也因此大船货见不到3090Ti,矿主们还未淘汰,市面都是3090。
3090推理速度没有比4090慢太多,但图形AI性能大约只有4090的1/3,不处理AI图像/视频的话谈不上差别。
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
云南省
陈年泡菜
泡网分: 60.983
主题: 55
帖子: 6173
注册: 2000年6月
我刚换上3090,加上96G DDR5,跑32B 4位量化版很快,和官网的速度基本一样。70B也能跑起来,一秒钟蹦1、2个字的样子.
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
浙江省
泡菜
泡网分: 2.289
主题: 5
帖子: 2171
注册: 2020年5月
duoduobear 发表于 2025-02-14 23:52
跑AI,很少有人提3090,用4090和22G 2080 Ti的则很普遍。
3090是不是本身出货量就小?

N 卡这几代都是顶配性价比最高
买 4090 的图快,买 2080Ti 的图便宜,3090 其实也不错

可惜 5090 眼看又要因为电源线的问题翻车了
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
上海
泡菜
泡网分: 1.771
主题: 86
帖子: 1351
注册: 2020年10月
KimYu 发表于 2025-02-01 09:22
本地跑14b仍然胡说八道


本地部署的32b也会胡说八道,是不是公路自行车运动太偏门?
ps: 温度设置为0.2

登录后可直接显示原图

一晴方觉夏深 编辑于 2025-02-15 13:09
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
重庆
子版版主
泡网分: 94.57
主题: 1039
帖子: 26235
注册: 2003年10月
内容贡献勋章
ddtx 发表于 2025-02-14 18:52
如果自己不开发的话,显卡可能3090更划算,只是找不到新卡了,都是矿卡翻新:3090和3090Ti有NVLink,对应的NVLink连接卡也买得到,40/50系都阉割掉了。40/50系的优点是有原生FP8支持,台积制程能效好。

跑AI,很少有人提3090,用4090和22G 2080 Ti的则很普遍。
3090是不是本身出货量就小?
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
美国
资深泡菜
泡网分: 32.624
主题: 130
帖子: 7227
注册: 2004年11月
Trompette 发表于 2025-02-14 19:34
软硬件都很重要,最新清华出的 Ktransformers 能够把大模型按照速度优先级在显存和内存中分层
号称只需要一块 4090 加足够内存就能把 671b Q4 跑出较快的速度了...

671b首先要500g左右内存,其次需要12通道500GB/s级别的内存带宽,这两项就是大几万的工作站才能有的,家用还是太贵
发布自 安卓客户端
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
福建省
wan
泡菜
泡网分: 34.072
主题: 0
帖子: 2545
注册: 2001年11月
Trompette 发表于 2025-02-14 19:34
软硬件都很重要,最新清华出的 Ktransformers 能够把大模型按照速度优先级在显存和内存中分层
号称只需要一块 4090 加足够内存就能把 671b Q4 跑出较快的速度了...

技术发展速度令人惊讶,这个优化让部署成本大幅降低了,普通人也能体验满血deepseed。
之前chatgpt刚出来的时候,大家都惊为天人,对普通人还是可望不可及的东西,短短几年时间,现在ai大模型不仅触手可及,而且还更强大。
wan 编辑于 2025-02-14 21:15
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
湖北省
泡菜
泡网分: 2.289
主题: 5
帖子: 2171
注册: 2020年5月
MM7 发表于 2025-02-14 08:49
只用32B,70B,单4090就可以了。要部署671B,最好4块4090,512G内存(才能达到正常速度)

软硬件都很重要,最新清华出的 Ktransformers 能够把大模型按照速度优先级在显存和内存中分层
号称只需要一块 4090 加足够内存就能把 671b Q4 跑出较快的速度了
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
上海
泡菜
泡网分: 26.594
主题: 17
帖子: 1920
注册: 2003年12月
如果自己不开发的话,显卡可能3090更划算,只是找不到新卡了,都是矿卡翻新:3090和3090Ti有NVLink,对应的NVLink连接卡也买得到,40/50系都阉割掉了。40/50系的优点是有原生FP8支持,台积制程能效好。
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
云南省
泡菜
泡网分: 26.594
主题: 17
帖子: 1920
注册: 2003年12月
jbfw 发表于 2025-02-14 14:45
专业术语是不是叫“数据标注”?

没错,我一般看英文或者海外※※的节目,自己按字面理解翻译的词,
数据-资料
评分-标注
...
ddtx 编辑于 2025-02-14 18:53
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
云南省
资深泡菜
泡网分: 38.447
主题: 25
帖子: 4060
注册: 2005年9月
ddtx 发表于 2025-02-08 12:55
有为为模型公司服务的专门数据采集公司,还是一个规模不小的行业。例如前几天硅谷一个中文频道采访了一位在瑞典留学的中国女生,这位女生在北大获得文学硕士后在某报社做了几年文学编辑,之后去瑞典再读一个硕士。她从网上的数据采集公司平台接活,为简体中文文学作品的...

专业术语是不是叫“数据标注”?
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
北京
MM7
资深泡菜
泡网分: 39.7
主题: 66
帖子: 3260
注册: 2002年8月
wan 发表于 2025-02-14 08:39
双4090吗?

只用32B,70B,单4090就可以了。要部署671B,最好4块4090,512G内存(才能达到正常速度)
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
wan
泡菜
泡网分: 34.072
主题: 0
帖子: 2545
注册: 2001年11月
MM7 发表于 2025-02-14 08:29
通过玩各种版本对比得出一个结论,普通带4090的个人电脑能完美部署的只有32B(速度快,勉强有用),32B以下的各种版本完全是垃圾。真正能进行正确推理与解答高考数学题的只有671B,包括其他厂家的模型如阿里千问、字节豆包、百度文心一言、OPENAI-...

双4090吗?
发布自 安卓客户端
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
湖北省
MM7
资深泡菜
泡网分: 39.7
主题: 66
帖子: 3260
注册: 2002年8月
通过玩各种版本对比得出一个结论,普通带4090的个人电脑能完美部署的只有32B(速度快,勉强有用),32B以下的各种版本完全是垃圾。真正能进行正确推理与解答高考数学题的只有671B,包括其他厂家的模型如阿里千问、字节豆包、百度文心一言、OPENAI-GPT4都不行。
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
MM7
资深泡菜
泡网分: 39.7
主题: 66
帖子: 3260
注册: 2002年8月
闲聊状态 发表于 2025-02-14 08:18
那您这套配置 输出速度如何?

5-6 TOKEN/秒。比较慢,但勉强能忍。32B就快多了,每秒20-28TOKEN
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
泡菜
泡网分: 18.239
主题: 11
帖子: 15129
注册: 2012年6月
MM7 发表于 2025-02-14 08:10
显存+内存总共110多G,还有2T超高速SSD(C盘),它首先会把显存与内存占用完,不够的时候会利用SSD上的虚拟内存,所以SSD速度越快越好(偶用的是读写速度7500M/秒)

那您这套配置 输出速度如何?
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
山东省
MM7
资深泡菜
泡网分: 39.7
主题: 66
帖子: 3260
注册: 2002年8月
在进行普通推理题时,DS-R1会首先使用CPU,而当要进行复杂数学计算时就会占满GPU
MM7 编辑于 2025-02-14 08:14
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
MM7
资深泡菜
泡网分: 39.7
主题: 66
帖子: 3260
注册: 2002年8月
闲聊状态 发表于 2025-02-13 21:52
100g内存?请问你这是靠这100g在本地跑的吗?

显存+内存总共110多G,还有2T超高速SSD(C盘),它首先会把显存与内存占用完,不够的时候会利用SSD上的虚拟内存,所以SSD速度越快越好(偶用的是读写速度7500M/秒)
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
泡菜
泡网分: 18.239
主题: 11
帖子: 15129
注册: 2012年6月
MM7 发表于 2025-02-13 21:46
671B离线版回答逻辑推理题


100g内存?请问你这是靠这100g在本地跑的吗?
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
山东省
回复主题: DeepSeek开源了
功能受限
游客无回复权限,请登录后再试