主题:deepseek7b用4G显存能跑吗
正序浏览
主题图片汇总
主题内检索
CIO
泡菜
泡网分: 3.168
主题: 267
帖子: 1983
注册: 2014年6月
推荐8G的,但电脑显存只有4G,要是能跑就费劲试试。
发布自 安卓客户端
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
河北省
浏览:3669 回帖:32
游客没有回帖权限
资深泡菜
泡网分: 25.542
主题: 64
帖子: 8900
注册: 2007年8月
闲聊状态 发表于 2025-02-10 11:35
如果要在显卡上跑,理论上确实是这样的,但是GPU性能相对平庸,而显存极大的显卡是不存在的。。显卡厂家都对显存大小与GPU性能进行了绑定
除非去买 华强北魔改版(比如48G的4090 22G的2080等)
所以 从正规渠道能买到的大显存显卡都是高性能显...

这种显存与GPU的绑定就是垄断行为,但是大家都没有制裁的能力
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
湖北省
泡菜
泡网分: 18.195
主题: 11
帖子: 15095
注册: 2012年6月
闲聊状态 发表于 2025-02-10 11:35
如果要在显卡上跑,理论上确实是这样的,但是GPU性能相对平庸,而显存极大的显卡是不存在的。。显卡厂家都对显存大小与GPU性能进行了绑定
除非去买 华强北魔改版(比如48G的4090 22G的2080等)
所以 从正规渠道能买到的大显存显卡都是高性能显...

前两天看到一个新闻 貌似新的AMD 9070XT 要在二季度出32G的。。。。 而且貌似价格比正常版贵2000。。。显存不是金子胜似金子。。。
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
山东省
泡菜
泡网分: 18.195
主题: 11
帖子: 15095
注册: 2012年6月
couldiy 发表于 2025-02-12 19:44
P-104/6 10G 显卡才2-300元,就是不知道跑llm有多快

这些卡日后很难了,因为CUDA新版不支持了,而ollama的cuda支持也在不停的升级,如果遇到新模型,基本上也得升级ollama否则也有可能无法使用新的模型

至于跑多快 ,看显存带宽,直接算就行,大差不差。可以把问题丢给deepseek 让它给你算。。。
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
山东省
泡菜
泡网分: 0.179
主题: 12
帖子: 120
注册: 2024年9月
CIO 发表于 2025-02-05 12:36
推荐8G的,但电脑显存只有4G,要是能跑就费劲试试。

P-104/6 10G 显卡才2-300元,就是不知道跑llm有多快
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
泡菜
泡网分: 2.208
主题: 5
帖子: 2101
注册: 2020年5月
虚化 发表于 2025-02-10 22:46
只要花9k就能70b跑到20t/s,垃圾佬的玩法
https://www.bilibili.com/video/BV1DH4y1c7gK/?spm_id_from=333.337.search-card.all.click



这个 PCIe 交换芯片无敌了,明年4号机上计划!投资不大,3号机的显卡和内存都可以沿用
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
上海
资深泡菜
泡网分: 32.584
主题: 130
帖子: 7187
注册: 2004年11月
只要花9k就能70b跑到20t/s,垃圾佬的玩法
https://www.bilibili.com/video/BV1DH4y1c7gK/?spm_id_from=333.337.search-card.all.click
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
福建省
泡菜
泡网分: 0.586
主题: 21
帖子: 543
注册: 2009年6月
闲聊状态 发表于 2025-02-10 11:35
如果要在显卡上跑,理论上确实是这样的,但是GPU性能相对平庸,而显存极大的显卡是不存在的。。显卡厂家都对显存大小与GPU性能进行了绑定
除非去买 华强北魔改版(比如48G的4090 22G的2080等)
所以 从正规渠道能买到的大显存显卡都是高性能显...

老的有3060 12G,新的有4060TI 16G
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
上海
泡菜
泡网分: 18.195
主题: 11
帖子: 15095
注册: 2012年6月
huhuzz 发表于 2025-02-10 08:22
带宽小只是慢,量大才能跑起来,推理对算力的需求没有训练高,所以要讨论的是,如果自己在家玩的话,是不是没有必要弄个非常强悍的显卡。
另外一点,训练可以搞集群,那么推理行不行呢,如果家里有多台机器,能不能把他们的内存都利用上呢。

如果要在显卡上跑,理论上确实是这样的,但是GPU性能相对平庸,而显存极大的显卡是不存在的。。显卡厂家都对显存大小与GPU性能进行了绑定
除非去买 华强北魔改版(比如48G的4090 22G的2080等)

所以 从正规渠道能买到的大显存显卡都是高性能显卡,而且也符合显存越大输出越快的“定律”....

而唯二的两个“例外” Intel B580 24G 还没上市,AMD 7600XT  16G 不国内发售。。。 当然与B580比起来,7600XT完全没有性价比。。。
闲聊状态 编辑于 2025-02-10 11:45
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
山东省
泡菜
泡网分: 3.27
主题: 7
帖子: 407
注册: 2007年9月
虚化 发表于 2025-02-09 13:58
mac mini m4丐版16g统一内存,cpu和gpu共用,带宽256GB/s,跑14b模型速度为10.70 tokens/s,完全是GPU在跑
14b模型的输出内容依旧是一本正经的胡说八道
M4的内存带宽是120GB/s
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
泡菜
泡网分: 9.643
主题: 0
帖子: 625
注册: 2007年4月
闲聊状态 发表于 2025-02-08 13:30
内存带宽有限
现在带宽最大的集显就是 mac m4 max,这玩意不便宜,而且内存不能换
但是即使是mac m4 max 也就是500G左右的带宽,只相当于 4060TI 这个级别的显卡的带宽。
要不是 显存比金子还贵,比MAC的内存还贵,现在也不会...

带宽小只是慢,量大才能跑起来,推理对算力的需求没有训练高,所以要讨论的是,如果自己在家玩的话,是不是没有必要弄个非常强悍的显卡。
另外一点,训练可以搞集群,那么推理行不行呢,如果家里有多台机器,能不能把他们的内存都利用上呢。
发布自 iOS客户端
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
北京
资深泡菜
泡网分: 32.584
主题: 130
帖子: 7187
注册: 2004年11月
duoduobear 发表于 2025-02-10 01:06
Mac上真是奇了怪了。Ollama Ps 显示模型任务主要中GPU上跑。系统监视器中却看到CPU一点不闲着。看这个CPU占用率都超过100%了。CPU占用率显示超过100%是Mac上的一个老问题。...

我的mac mini m4 没问题,cpu 1%
发布自 安卓客户端
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
福建省
子版版主
泡网分: 94.244
主题: 1031
帖子: 25970
注册: 2003年10月
内容贡献勋章
闲聊状态 发表于 2025-02-09 09:05
没有MAC 这个不清楚。。。
不过 在win下 这种情况就是"爆显存",一部分层在CPU一部分在GPU,这样才能导致两边都在运行

Mac上真是奇了怪了。Ollama Ps 显示模型任务主要中GPU上跑。系统监视器中却看到CPU一点不闲着。看这个CPU占用率都超过100%了。CPU占用率显示超过100%是Mac上的一个老问题。

登录后可直接显示原图
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
美国
子版版主
泡网分: 94.244
主题: 1031
帖子: 25970
注册: 2003年10月
内容贡献勋章
washu 发表于 2025-02-09 12:30
难怪,我说咋两边都在跑
so 13 楼的情况就是,显存足够大?

我又试了一下,Ollama可以自动分配CPU和GPU的使用比例。在大规模模型中,CPU能跑到45%以上,GPU则只看到一点点占用率,之前被我忽略不计了。

14b
登录后可直接显示原图


32b
登录后可直接显示原图


70b
登录后可直接显示原图


70b时GPU占用率
登录后可直接显示原图
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
美国
资深泡菜
泡网分: 32.584
主题: 130
帖子: 7187
注册: 2004年11月
mac mini m4丐版16g统一内存,cpu和gpu共用,带宽256GB/s,跑14b模型速度为10.70 tokens/s,完全是GPU在跑
14b模型的输出内容依旧是一本正经的胡说八道

登录后可直接显示原图

登录后可直接显示原图
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
福建省
泡菜
泡网分: 57.184
主题: 84
帖子: 18715
注册: 2006年3月
内容贡献勋章
闲聊状态 发表于 2025-02-09 09:05
没有MAC 这个不清楚。。。
不过 在win下 这种情况就是"爆显存",一部分层在CPU一部分在GPU,这样才能导致两边都在运行


难怪,我说咋两边都在跑
登录后可直接显示原图


so 13 楼的情况就是,显存足够大?

duoduobear 发表于 2025-02-08 16:34
Mac电脑跑Ollama Deepseek,有一个和Windows平台不一样的地方。
在Windows平台上,我看到要么模型在CPU上运行,要么在GPU上运行...

(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广西
泡菜
泡网分: 18.195
主题: 11
帖子: 15095
注册: 2012年6月
duoduobear 发表于 2025-02-08 16:59
M芯片的苹果Mac电脑设计比较特殊,它跑大语言模型的确有优势。我找8GB内存的M1 Macbook Pro上运行8B,感觉很流畅。
但Intel和AMD平台的核显配合统一内存架构是否也这个优势呢?我找了一些资料还找了一台AMD笔记本电脑试了一下,发现...

没有MAC 这个不清楚。。。
不过 在win下 这种情况就是"爆显存",一部分层在CPU一部分在GPU,这样才能导致两边都在运行
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
山东省
CIO
泡菜
泡网分: 3.168
主题: 267
帖子: 1983
注册: 2014年6月
虚化 发表于 2025-02-08 23:15
刚才用笔记本4060 8g显卡跑了deepseek 7b模型,占用5.5g显存,43 token/s,速度是够快,就是回答内容质量很差,可以算是一本正经的胡说八道...

死心了
发布自 安卓客户端
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
河北省
资深泡菜
泡网分: 32.584
主题: 130
帖子: 7187
注册: 2004年11月
刚才用笔记本4060 8g显卡跑了deepseek 7b模型,占用5.5g显存,43 token/s,速度是够快,就是回答内容质量很差,可以算是一本正经的胡说八道
发布自 安卓客户端
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
福建省
资深泡菜
泡网分: 32.584
主题: 130
帖子: 7187
注册: 2004年11月
huhuzz 发表于 2025-02-08 13:26
用CPU集成的核显是不是更灵活一些,最多可以划一半的主存当显存用,直接扩主存就行了。...

内存带宽比显存带宽差很多,Mac因为内存用作显存,所以特别提高了内存带宽,减小跟显存的差距
发布自 安卓客户端
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
福建省
子版版主
泡网分: 94.244
主题: 1031
帖子: 25970
注册: 2003年10月
内容贡献勋章
huhuzz 发表于 2025-02-08 13:26
用CPU集成的核显是不是更灵活一些,最多可以划一半的主存当显存用,直接扩主存就行了。

M芯片的苹果Mac电脑设计比较特殊,它跑大语言模型的确有优势。我找8GB内存的M1 Macbook Pro上运行8B,感觉很流畅。
但Intel和AMD平台的核显配合统一内存架构是否也这个优势呢?我找了一些资料还找了一台AMD笔记本电脑试了一下,发现好像不行。

我用的是一台16GB内存的核显AMD笔记本电脑,年代和8GB M1 Macbook Pro相近,当时的价格也应该相近。但这台电脑上显存默认只分配了512MB,其他都是共享显存,而可分配给GPU的共享内存并不是很多。实际运行体验和8GB M1 Macbook相比要差不少。我认为既然同样是使用内存,那Intel/AMD平台上使用核显的性能并不比使用CPU高,因为瓶颈是在内存带宽。使用CPU运行大语言模型,CPU使用率也跑不满。所以使用CPU和使用核显性能差距不大。

除非是有特殊设计的内存和架构,可能会提供很好的性能,比如Nvidia 的Project  Digits,介绍里特意提到使用高带宽DDR5X内存。

(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
美国
子版版主
泡网分: 94.244
主题: 1031
帖子: 25970
注册: 2003年10月
内容贡献勋章
闲聊状态 发表于 2025-02-08 13:30
内存带宽有限
现在带宽最大的集显就是 mac m4 max,这玩意不便宜,而且内存不能换
但是即使是mac m4 max 也就是500G左右的带宽,只相当于 4060TI 这个级别的显卡的带宽。
要不是 显存比金子还贵,比MAC的内存还贵,现在也不会...

Mac电脑跑Ollama Deepseek,有一个和Windows平台不一样的地方。

在Windows平台上,我看到要么模型在CPU上运行,要么在GPU上运行,但在M1 Macbook Pro上运行Ollama上的模型时,我看到CPU和GPU同时都在高负载状态,这是怎么一回事?Ollama在MacOS上的实现和Windows平台不同吗?

登录后可直接显示原图
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
美国
陈年泡菜
泡网分: 60.933
主题: 53
帖子: 5599
注册: 2000年6月
能跑,快慢不知道,装一个试试就行了。我8G显存的跑得飞快
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
浙江省
泡菜
泡网分: 18.195
主题: 11
帖子: 15095
注册: 2012年6月
huhuzz 发表于 2025-02-08 13:26
用CPU集成的核显是不是更灵活一些,最多可以划一半的主存当显存用,直接扩主存就行了。

内存带宽有限

现在带宽最大的集显就是 mac m4 max,这玩意不便宜,而且内存不能换
但是即使是mac m4 max 也就是500G左右的带宽,只相当于 4060TI 这个级别的显卡的带宽。
要不是 显存比金子还贵,比MAC的内存还贵,现在也不会有人会用MAC干这个。。。
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
山东省
泡菜
泡网分: 9.643
主题: 0
帖子: 625
注册: 2007年4月
用CPU集成的核显是不是更灵活一些,最多可以划一半的主存当显存用,直接扩主存就行了。
发布自 iOS客户端
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
北京
泡菜
泡网分: 57.184
主题: 84
帖子: 18715
注册: 2006年3月
内容贡献勋章
radius 发表于 2025-02-07 19:52
为啥非要在本地跑?有保密需求?
可以咸鱼买个tesla M40 24G 显卡,不到1000。可能是性价比最高的跑AI得硬件了。
不过就算这样也不如API合算,1000块钱可以处理几亿个token了,你有啥资料需要那么多token ?

楼主在 8 楼回答了,我也是差不多,我问 DSR1 Web 公众版,老是服务器繁忙 --- 虽然隔壁泡菜说是我提问的水平太低,那我就自己电脑上跑个试试,如果不需要我额外增加硬件的话 就当作玩玩,顺便看下怎么提高提问水平,毕竟我问其它 Ai,比如 Kimi,豆包啥的都很正常,就 DSR1 不正常嘛
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广西
CIO
泡菜
泡网分: 3.168
主题: 267
帖子: 1983
注册: 2014年6月
radius 发表于 2025-02-07 19:52
为啥非要在本地跑?有保密需求?
可以咸鱼买个tesla M40 24G 显卡,不到1000。可能是性价比最高的跑AI得硬件了。
不过就算这样也不如API合算,1000块钱可以处理几亿个token了,你有啥资料需要那么多token ?...

用了几次ds app,总报错,估计是故障了,就想自己部署试试
发布自 安卓客户端
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
中国
泡菜
泡网分: 25.759
主题: 491
帖子: 15513
注册: 2005年11月
radius 发表于 2025-02-07 19:52
为啥非要在本地跑?有保密需求?
可以咸鱼买个tesla M40 24G 显卡,不到1000。可能是性价比最高的跑AI得硬件了。
不过就算这样也不如API合算,1000块钱可以处理几亿个token了,你有啥资料需要那么多token ?


一个是安全,而且目前deepseek商业化做得不好,服务可用性不高,再者开源(权)不就是让你自己部署着玩的么,不玩白不玩,和用SaaS版的也不冲突
CATWK 编辑于 2025-02-08 08:44
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
北京
泡菜
泡网分: 20.041
主题: 139
帖子: 11740
注册: 2003年9月
为啥非要在本地跑?有保密需求?
可以咸鱼买个tesla M40 24G 显卡,不到1000。可能是性价比最高的跑AI得硬件了。
不过就算这样也不如API合算,1000块钱可以处理几亿个token了,你有啥资料需要那么多token ?
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
泡菜
泡网分: 25.759
主题: 491
帖子: 15513
注册: 2005年11月
1.5b, 7b, 8b, 14b都装过,全胡说八道的完全不能用,14b还好点,要不是显存所限尽量装大的
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
北京
回复主题: deepseek7b用4G显存能跑吗
功能受限
游客无回复权限,请登录后再试