deepseek7b用4G显存能跑吗

主题：deepseek7b用4G显存能跑吗

正序浏览

主题图片汇总

主题内检索

CIO

泡菜

泡网分: 3.168

主题: 267

帖子: 1983

2025-02-05 12:36

推荐8G的，但电脑显存只有4G，要是能跑就费劲试试。
发布自安卓客户端

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

河北省

第 1 帖

浏览：3669 回帖：32

游客没有回帖权限

lzc463

资深泡菜

泡网分: 25.542

主题: 64

帖子: 8900

2025-02-16 11:40

闲聊状态发表于 2025-02-10 11:35
如果要在显卡上跑，理论上确实是这样的，但是GPU性能相对平庸，而显存极大的显卡是不存在的。。显卡厂家都对显存大小与GPU性能进行了绑定
除非去买华强北魔改版（比如48G的4090 22G的2080等）
所以从正规渠道能买到的大显存显卡都是高性能显...

这种显存与GPU的绑定就是垄断行为，但是大家都没有制裁的能力

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

湖北省

第 33 帖

闲聊状态

泡菜

泡网分: 18.195

主题: 11

帖子: 15095

2025-02-14 06:43

闲聊状态发表于 2025-02-10 11:35
如果要在显卡上跑，理论上确实是这样的，但是GPU性能相对平庸，而显存极大的显卡是不存在的。。显卡厂家都对显存大小与GPU性能进行了绑定
除非去买华强北魔改版（比如48G的4090 22G的2080等）
所以从正规渠道能买到的大显存显卡都是高性能显...

前两天看到一个新闻貌似新的AMD 9070XT 要在二季度出32G的。。。。而且貌似价格比正常版贵2000。。。显存不是金子胜似金子。。。

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

山东省

第 32 帖

闲聊状态

泡菜

泡网分: 18.195

主题: 11

帖子: 15095

2025-02-13 10:57

couldiy 发表于 2025-02-12 19:44
P-104/6 10G 显卡才2-300元，就是不知道跑llm有多快

这些卡日后很难了，因为CUDA新版不支持了，而ollama的cuda支持也在不停的升级，如果遇到新模型，基本上也得升级ollama否则也有可能无法使用新的模型

至于跑多快，看显存带宽，直接算就行，大差不差。可以把问题丢给deepseek 让它给你算。。。

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

山东省

第 31 帖

couldiy

泡菜

泡网分: 0.179

主题: 12

帖子: 120

2025-02-12 19:44

CIO 发表于 2025-02-05 12:36
推荐8G的，但电脑显存只有4G，要是能跑就费劲试试。

P-104/6 10G 显卡才2-300元，就是不知道跑llm有多快

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

广东省

第 30 帖

Trompette

泡菜

泡网分: 2.208

主题: 5

帖子: 2101

2025-02-11 20:51

虚化发表于 2025-02-10 22:46
只要花9k就能70b跑到20t/s，垃圾佬的玩法
https://www.bilibili.com/video/BV1DH4y1c7gK/?spm_id_from=333.337.search-card.all.click

这个 PCIe 交换芯片无敌了，明年4号机上计划！投资不大，3号机的显卡和内存都可以沿用

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

上海

第 29 帖

虚化

资深泡菜

泡网分: 32.584

主题: 130

帖子: 7187

2025-02-10 22:46

只要花9k就能70b跑到20t/s，垃圾佬的玩法
https://www.bilibili.com/video/BV1DH4y1c7gK/?spm_id_from=333.337.search-card.all.click

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

福建省

第 28 帖

woot

泡菜

泡网分: 0.586

主题: 21

帖子: 543

2025-02-10 13:45

闲聊状态发表于 2025-02-10 11:35
如果要在显卡上跑，理论上确实是这样的，但是GPU性能相对平庸，而显存极大的显卡是不存在的。。显卡厂家都对显存大小与GPU性能进行了绑定
除非去买华强北魔改版（比如48G的4090 22G的2080等）
所以从正规渠道能买到的大显存显卡都是高性能显...

老的有3060 12G，新的有4060TI 16G

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

上海

第 27 帖

闲聊状态

泡菜

泡网分: 18.195

主题: 11

帖子: 15095

2025-02-10 11:35

huhuzz 发表于 2025-02-10 08:22
带宽小只是慢，量大才能跑起来，推理对算力的需求没有训练高，所以要讨论的是，如果自己在家玩的话，是不是没有必要弄个非常强悍的显卡。
另外一点，训练可以搞集群，那么推理行不行呢，如果家里有多台机器，能不能把他们的内存都利用上呢。

如果要在显卡上跑，理论上确实是这样的，但是GPU性能相对平庸，而显存极大的显卡是不存在的。。显卡厂家都对显存大小与GPU性能进行了绑定
除非去买华强北魔改版（比如48G的4090 22G的2080等）

所以从正规渠道能买到的大显存显卡都是高性能显卡，而且也符合显存越大输出越快的“定律”....

而唯二的两个“例外” Intel B580 24G 还没上市，AMD 7600XT 16G 不国内发售。。。当然与B580比起来，7600XT完全没有性价比。。。
闲聊状态编辑于 2025-02-10 11:45

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

山东省

第 26 帖

barenboim

泡菜

泡网分: 3.27

主题: 7

帖子: 407

2025-02-10 11:28

虚化发表于 2025-02-09 13:58
mac mini m4丐版16g统一内存，cpu和gpu共用，带宽256GB/s，跑14b模型速度为10.70 tokens/s，完全是GPU在跑
14b模型的输出内容依旧是一本正经的胡说八道

M4的内存带宽是120GB/s

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

广东省

第 25 帖

huhuzz

泡菜

泡网分: 9.643

主题: 0

帖子: 625

2025-02-10 08:22

闲聊状态发表于 2025-02-08 13:30
内存带宽有限
现在带宽最大的集显就是 mac m4 max，这玩意不便宜，而且内存不能换
但是即使是mac m4 max 也就是500G左右的带宽，只相当于 4060TI 这个级别的显卡的带宽。
要不是显存比金子还贵，比MAC的内存还贵，现在也不会...

带宽小只是慢，量大才能跑起来，推理对算力的需求没有训练高，所以要讨论的是，如果自己在家玩的话，是不是没有必要弄个非常强悍的显卡。
另外一点，训练可以搞集群，那么推理行不行呢，如果家里有多台机器，能不能把他们的内存都利用上呢。
发布自 iOS客户端

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

北京

第 24 帖

虚化

资深泡菜

泡网分: 32.584

主题: 130

帖子: 7187

2025-02-10 07:28

duoduobear 发表于 2025-02-10 01:06
Mac上真是奇了怪了。Ollama Ps 显示模型任务主要中GPU上跑。系统监视器中却看到CPU一点不闲着。看这个CPU占用率都超过100%了。CPU占用率显示超过100%是Mac上的一个老问题。...

我的mac mini m4 没问题，cpu 1%
发布自安卓客户端

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

福建省

第 23 帖

duoduobear

子版版主

泡网分: 94.244

主题: 1031

帖子: 25970

2025-02-10 01:06

闲聊状态发表于 2025-02-09 09:05
没有MAC 这个不清楚。。。
不过在win下这种情况就是"爆显存"，一部分层在CPU一部分在GPU，这样才能导致两边都在运行

Mac上真是奇了怪了。Ollama Ps 显示模型任务主要中GPU上跑。系统监视器中却看到CPU一点不闲着。看这个CPU占用率都超过100%了。CPU占用率显示超过100%是Mac上的一个老问题。

登录后可直接显示原图

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

美国

第 22 帖

duoduobear

子版版主

泡网分: 94.244

主题: 1031

帖子: 25970

2025-02-10 00:19

washu 发表于 2025-02-09 12:30
难怪，我说咋两边都在跑
so 13 楼的情况就是，显存足够大？

我又试了一下，Ollama可以自动分配CPU和GPU的使用比例。在大规模模型中，CPU能跑到45%以上，GPU则只看到一点点占用率，之前被我忽略不计了。

14b

登录后可直接显示原图

32b

登录后可直接显示原图

70b

登录后可直接显示原图

70b时GPU占用率

登录后可直接显示原图

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

美国

第 21 帖

虚化

资深泡菜

泡网分: 32.584

主题: 130

帖子: 7187

2025-02-09 13:58

mac mini m4丐版16g统一内存，cpu和gpu共用，带宽256GB/s，跑14b模型速度为10.70 tokens/s，完全是GPU在跑
14b模型的输出内容依旧是一本正经的胡说八道

登录后可直接显示原图

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

福建省

第 20 帖

washu

泡菜

泡网分: 57.184

主题: 84

帖子: 18715

2025-02-09 12:30

闲聊状态发表于 2025-02-09 09:05
没有MAC 这个不清楚。。。
不过在win下这种情况就是"爆显存"，一部分层在CPU一部分在GPU，这样才能导致两边都在运行

难怪，我说咋两边都在跑

登录后可直接显示原图

so 13 楼的情况就是，显存足够大？

duoduobear 发表于 2025-02-08 16:34
Mac电脑跑Ollama Deepseek，有一个和Windows平台不一样的地方。
在Windows平台上，我看到要么模型在CPU上运行，要么在GPU上运行...

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

广西

第 19 帖

闲聊状态

泡菜

泡网分: 18.195

主题: 11

帖子: 15095

2025-02-09 09:05

duoduobear 发表于 2025-02-08 16:59
M芯片的苹果Mac电脑设计比较特殊，它跑大语言模型的确有优势。我找8GB内存的M1 Macbook Pro上运行8B，感觉很流畅。
但Intel和AMD平台的核显配合统一内存架构是否也这个优势呢？我找了一些资料还找了一台AMD笔记本电脑试了一下，发现...

没有MAC 这个不清楚。。。
不过在win下这种情况就是"爆显存"，一部分层在CPU一部分在GPU，这样才能导致两边都在运行

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

山东省

第 18 帖

CIO

泡菜

泡网分: 3.168

主题: 267

帖子: 1983

2025-02-09 00:06

虚化发表于 2025-02-08 23:15
刚才用笔记本4060 8g显卡跑了deepseek 7b模型，占用5.5g显存，43 token/s，速度是够快，就是回答内容质量很差，可以算是一本正经的胡说八道...

死心了
发布自安卓客户端

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

河北省

第 17 帖

虚化

资深泡菜

泡网分: 32.584

主题: 130

帖子: 7187

2025-02-08 23:15

刚才用笔记本4060 8g显卡跑了deepseek 7b模型，占用5.5g显存，43 token/s，速度是够快，就是回答内容质量很差，可以算是一本正经的胡说八道
发布自安卓客户端

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

福建省

第 16 帖

虚化

资深泡菜

泡网分: 32.584

主题: 130

帖子: 7187

2025-02-08 23:12

huhuzz 发表于 2025-02-08 13:26
用CPU集成的核显是不是更灵活一些，最多可以划一半的主存当显存用，直接扩主存就行了。...

内存带宽比显存带宽差很多，Mac因为内存用作显存，所以特别提高了内存带宽，减小跟显存的差距
发布自安卓客户端

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

福建省

第 15 帖

duoduobear

子版版主

泡网分: 94.244

主题: 1031

帖子: 25970

2025-02-08 16:59

huhuzz 发表于 2025-02-08 13:26
用CPU集成的核显是不是更灵活一些，最多可以划一半的主存当显存用，直接扩主存就行了。

M芯片的苹果Mac电脑设计比较特殊，它跑大语言模型的确有优势。我找8GB内存的M1 Macbook Pro上运行8B，感觉很流畅。
但Intel和AMD平台的核显配合统一内存架构是否也这个优势呢？我找了一些资料还找了一台AMD笔记本电脑试了一下，发现好像不行。

我用的是一台16GB内存的核显AMD笔记本电脑，年代和8GB M1 Macbook Pro相近，当时的价格也应该相近。但这台电脑上显存默认只分配了512MB，其他都是共享显存，而可分配给GPU的共享内存并不是很多。实际运行体验和8GB M1 Macbook相比要差不少。我认为既然同样是使用内存，那Intel/AMD平台上使用核显的性能并不比使用CPU高，因为瓶颈是在内存带宽。使用CPU运行大语言模型，CPU使用率也跑不满。所以使用CPU和使用核显性能差距不大。

除非是有特殊设计的内存和架构，可能会提供很好的性能，比如Nvidia 的Project Digits，介绍里特意提到使用高带宽DDR5X内存。

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

美国

第 14 帖

duoduobear

子版版主

泡网分: 94.244

主题: 1031

帖子: 25970

2025-02-08 16:34

闲聊状态发表于 2025-02-08 13:30
内存带宽有限
现在带宽最大的集显就是 mac m4 max，这玩意不便宜，而且内存不能换
但是即使是mac m4 max 也就是500G左右的带宽，只相当于 4060TI 这个级别的显卡的带宽。
要不是显存比金子还贵，比MAC的内存还贵，现在也不会...

Mac电脑跑Ollama Deepseek，有一个和Windows平台不一样的地方。

在Windows平台上，我看到要么模型在CPU上运行，要么在GPU上运行，但在M1 Macbook Pro上运行Ollama上的模型时，我看到CPU和GPU同时都在高负载状态，这是怎么一回事？Ollama在MacOS上的实现和Windows平台不同吗？

登录后可直接显示原图

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

美国

第 13 帖

bird3000

陈年泡菜

泡网分: 60.933

主题: 53

帖子: 5599

2025-02-08 13:43

能跑，快慢不知道，装一个试试就行了。我8G显存的跑得飞快

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

浙江省

第 12 帖

闲聊状态

泡菜

泡网分: 18.195

主题: 11

帖子: 15095

2025-02-08 13:30

huhuzz 发表于 2025-02-08 13:26
用CPU集成的核显是不是更灵活一些，最多可以划一半的主存当显存用，直接扩主存就行了。

内存带宽有限

现在带宽最大的集显就是 mac m4 max，这玩意不便宜，而且内存不能换
但是即使是mac m4 max 也就是500G左右的带宽，只相当于 4060TI 这个级别的显卡的带宽。
要不是显存比金子还贵，比MAC的内存还贵，现在也不会有人会用MAC干这个。。。

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

山东省

第 11 帖

huhuzz

泡菜

泡网分: 9.643

主题: 0

帖子: 625

2025-02-08 13:26

用CPU集成的核显是不是更灵活一些，最多可以划一半的主存当显存用，直接扩主存就行了。
发布自 iOS客户端

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

北京

第 10 帖

washu

泡菜

泡网分: 57.184

主题: 84

帖子: 18715

2025-02-08 13:08

radius 发表于 2025-02-07 19:52
为啥非要在本地跑？有保密需求？
可以咸鱼买个tesla M40 24G 显卡，不到1000。可能是性价比最高的跑AI得硬件了。
不过就算这样也不如API合算，1000块钱可以处理几亿个token了，你有啥资料需要那么多token ？

楼主在 8 楼回答了，我也是差不多，我问 DSR1 Web 公众版，老是服务器繁忙 --- 虽然隔壁泡菜说是我提问的水平太低，那我就自己电脑上跑个试试，如果不需要我额外增加硬件的话

就当作玩玩，顺便看下怎么提高提问水平，毕竟我问其它 Ai，比如 Kimi，豆包啥的都很正常，就 DSR1 不正常嘛

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

广西

第 9 帖

CIO

泡菜

泡网分: 3.168

主题: 267

帖子: 1983

2025-02-08 09:54

radius 发表于 2025-02-07 19:52
为啥非要在本地跑？有保密需求？
可以咸鱼买个tesla M40 24G 显卡，不到1000。可能是性价比最高的跑AI得硬件了。
不过就算这样也不如API合算，1000块钱可以处理几亿个token了，你有啥资料需要那么多token ？...

用了几次ds app，总报错，估计是故障了，就想自己部署试试
发布自安卓客户端

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

中国

第 8 帖

CATWK

泡菜

泡网分: 25.759

主题: 491

帖子: 15513

2025-02-08 08:43

radius 发表于 2025-02-07 19:52
为啥非要在本地跑？有保密需求？
可以咸鱼买个tesla M40 24G 显卡，不到1000。可能是性价比最高的跑AI得硬件了。
不过就算这样也不如API合算，1000块钱可以处理几亿个token了，你有啥资料需要那么多token ？

一个是安全，而且目前deepseek商业化做得不好，服务可用性不高，再者开源（权）不就是让你自己部署着玩的么，不玩白不玩，和用SaaS版的也不冲突
CATWK 编辑于 2025-02-08 08:44

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

北京

第 7 帖

radius

泡菜

泡网分: 20.041

主题: 139

帖子: 11740

2025-02-07 19:52

为啥非要在本地跑？有保密需求？
可以咸鱼买个tesla M40 24G 显卡，不到1000。可能是性价比最高的跑AI得硬件了。
不过就算这样也不如API合算，1000块钱可以处理几亿个token了，你有啥资料需要那么多token ？

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

广东省

第 6 帖

CATWK

泡菜

泡网分: 25.759

主题: 491

帖子: 15513

2025-02-07 09:05

1.5b, 7b, 8b, 14b都装过，全胡说八道的完全不能用，14b还好点，要不是显存所限尽量装大的

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

北京

第 5 帖

< 返回版块列表

回复主题： deepseek7b用4G显存能跑吗

功能受限

游客无回复权限，请登录后再试