主题:聊聊最近几个可以本地部署的AI模型吧
正序浏览
主题图片汇总
主题内检索
陈年泡菜
泡网分: 60.991
主题: 54
帖子: 5655
注册: 2000年6月
最近下了几个可以在本地PC上跑效果还不错的几个模型。deepseek 32B.gemma3 27B.QWQ 32B.还挺好玩的,硬件主要就是要有一个24G以上显存的显卡。
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
浙江省
浏览:4772 回帖:27
第 1 页 / 共 1 页
游客没有回帖权限
陈年泡菜
泡网分: 60.991
主题: 54
帖子: 5655
注册: 2000年6月
又试了一下qwen3 235B-a22b Q2模型,5T/s。
登录后可直接显示原图
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
浙江省
陈年泡菜
泡网分: 60.991
主题: 54
帖子: 5655
注册: 2000年6月
试了一下qwen3 30B-a3b,对硬件的要求友好多了,感觉基本16G显存就可以跑起来了,24G显存跑Q8量化版可以到15~20t/s.而且可以开关think算是一个不错的进步,一个模型可以当两个用。
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
浙江省
泡菜
泡网分: 0.2
主题: 12
帖子: 139
注册: 2024年9月
bird3000 发表于 2025-03-31 06:45
最近下了几个可以在本地PC上跑效果还不错的几个模型。deepseek 32B.gemma3 27B.QWQ 32B.还挺好玩的,硬件主要就是要有一个24G以上显存的显卡。

生文,加起来都不如gemini 2.5Pro,
生图,不如gpt4o

还要买个上万元的显卡,不知道有啥好玩的
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
广东省
泡菜
泡网分: 2.309
主题: 5
帖子: 2190
注册: 2020年5月
闲聊状态 发表于 2025-04-15 14:22
实际上 所谓的正经软件支持 只能是老版本,新时代里 vega 都是渣渣,而跑模型,也不是老版本的就一定能用新模型的,太老的卡,我觉得意义不大。。。当然了 用vulkan 跑 那就是另一个说法了

VEGA 10 的顶配 Mi25,14nm 工艺,对标 N 家 1080
VEGA 20 的顶配 Mi50,7nm 工艺,,对标 N 家 2080。 7nm 制程性能比 VEGA 10 快的多
但这俩都没有张量核,现在只能算渣了
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
上海
泡菜
泡网分: 18.272
主题: 11
帖子: 15158
注册: 2012年6月
实际上 所谓的正经软件支持 只能是老版本,新时代里 vega 都是渣渣,而跑模型,也不是老版本的就一定能用新模型的,太老的卡,我觉得意义不大。。。当然了 用vulkan 跑 那就是另一个说法了

登录后可直接显示原图
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
山东省
泡菜
泡网分: 18.272
主题: 11
帖子: 15158
注册: 2012年6月
Trompette 发表于 2025-04-15 10:35
算力是 2080Ti 级别的,比不了 3090,绝对对得起 900 元
显存 32G HBM2,容量和 5090 齐平,速度超过 5090 的 GDDR7
Linux 有正规驱动,跑推理没问题。Windows 下当普通显卡玩游戏太折腾
被动散热,也有...

我现在就在linux下用我的vege56 (Vega 10核心),玩玩游戏 看看视频还行 跑推理基本上也得vulkan,rocm 只支持到5.7,现在ollama lmstuido都要求6.1,6.2以上的了,也就是RDNA3的独显也相对安逸

这玩意确实是便宜 显存也大,考虑到船和未来的软硬件支持环境。。。。
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
山东省
陈年泡菜
泡网分: 60.991
主题: 54
帖子: 5655
注册: 2000年6月
AMD Instinct MI50 作为一款发布于2018年的7nm工艺计算卡,基于GCN 5.1架构(Vega 20核心),其在大模型(如LLM)训练或推理中的表现需结合硬件规格、显存容量、计算能力及生态支持综合评估。以下是关键分析:
1. 硬件规格与计算性能显存与带宽:MI50配备16GB HBM2显存,4096位宽,带宽达1TB/s 1
8
11
。这一显存容量对于中小规模模型(如7B参数级别)的推理可能勉强够用,但训练大模型(如70B以上)显存会严重不足(大模型训练通常需要≥100GB显存) 13
17
。计算能力:双精度(FP64):6.6-6.7 TFLOPS(刷BIOS解锁后可达7 TFLOPS) 1
2
9
。单精度(FP32):13-15 TFLOPS(超频后) 1
11
。FP16/AI性能:原生支持FP16,但缺乏专用AI加速单元(如Tensor Core),效率低于NVIDIA同类产品 3
6
。对比现代显卡:MI50的双精度性能接近NVIDIA Tesla P100,但远逊于A100(19.5 TFLOPS FP64)或MI300X(192GB显存) 5
17
。2. 大模型适配性显存限制:训练:以7B模型为例,FP16混合精度训练需约97.55GB显存(含参数、梯度、优化器等),MI50的16GB显存无法满足 13
15
。推理:若采用量化(如INT8)或LoRA微调,可能运行小规模模型(如1-3B参数),但长序列推理(>2048 tokens)会因KV Cache显存占用激增而失败 13
14
。软件生态:依赖ROCm平台,虽支持PyTorch等框架,但优化和兼容性不如CUDA,尤其在LLM推理工具(如vLLM)中表现可能较差 18
。3. 能效与性价比功耗:TDP 300W,实际负载中功耗达180-240W,能效比低于NVIDIA P100(130-170W) 1
11
。二手市场:咸鱼价格较低(约700-1000元),但需注意矿卡风险(部分为Radeon VII改装) 1
。若仅用于实验性推理或轻量级AI任务,性价比尚可,但专业场景建议选择MI250(128GB显存)或NVIDIA H100 17
18
。4. 实际应用案例工业建模:MI50在Creo等CAD软件中表现优异(专业驱动加成),但高负载场景性能波动大 1
。AI计算:更适合传统HPC(如科学计算),而非大模型训练。AMD后续MI300X已能单卡部署720B模型,凸显MI50的局限性 17
。总结MI50跑大模型的可行性:
勉强可试:仅适用于小模型(<3B)的量化推理或研究性实验,需严格优化显存(如梯度检查点、LoRA) 13
15
。不推荐:大模型训练或生产级推理需更高显存(≥80GB)和计算效率的现代显卡(如MI300X/H200) 17
18
。若预算有限且需求为轻量级AI任务,MI50可作为过渡选择,但需接受其性能瓶颈和生态限制
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
浙江省
泡菜
泡网分: 2.309
主题: 5
帖子: 2190
注册: 2020年5月
bird3000 发表于 2025-04-15 09:33
这些卡的问题是算力不够,即使显存够了,也跑不快。还有就是驱动问题,主板问题。


闲聊状态 发表于 2025-04-15 08:23
拿大船和新的比还是不太合适吧。。
大船来的 寿命也不知道如何
尤其是 这卡是给服务器的,给PC用还得改散热,拿来玩小机箱还放不下


算力是 2080Ti 级别的,比不了 3090,绝对对得起 900 元
显存 32G HBM2,容量和 5090 齐平,速度超过 5090 的 GDDR7
Linux 有正规驱动,跑推理没问题。Windows 下当普通显卡玩游戏太折腾
被动散热,也有不少凑合办法,如果这也完美解决,显然不会卖 900 块

捡垃圾 Intel 9代 + z390 主板 + 双卡 Mi50 能控制在 3000 元内
qwq32b_q8 推理出 12T/s,还有更便宜的不?
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
上海
陈年泡菜
泡网分: 60.991
主题: 54
帖子: 5655
注册: 2000年6月
Trompette 发表于 2025-04-15 07:46
最近的大船 AMD instinct Mi50 有 32GB HBM2 才 900 块
单卡推理 32b-Q4 能到 12T/s
双卡推理 32b-Q8 也是这个速度,上下文管饱
这些卡的问题是算力不够,即使显存够了,也跑不快。还有就是驱动问题,主板问题。
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
浙江省
泡菜
泡网分: 18.272
主题: 11
帖子: 15158
注册: 2012年6月
Trompette 发表于 2025-04-15 07:46
最近的大船 AMD instinct Mi50 有 32GB HBM2 才 900 块
单卡推理 32b-Q4 能到 12T/s
双卡推理 32b-Q8 也是这个速度,上下文管饱

拿大船和新的比还是不太合适吧。。
大船来的 寿命也不知道如何
尤其是 这卡是给服务器的,给PC用还得改散热,拿来玩小机箱还放不下
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
山东省
泡菜
泡网分: 2.309
主题: 5
帖子: 2190
注册: 2020年5月
闲聊状态 发表于 2025-04-14 16:31
差距那是不可避免的,显存带宽差距巨大,也就是体验一下而已
8845这种的最大可以支持256G内存,玩玩的话 可以体验更好一点的模型了。。。
速度就别想了,毕竟一分钱一分货吗。。。。毕竟也比CPU跑快那么一点....
现在ddr5 双通道 100G 4...

最近的大船 AMD instinct Mi50 有 32GB HBM2 才 900 块
单卡推理 32b-Q4 能到 12T/s
双卡推理 32b-Q8 也是这个速度,上下文管饱
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
上海
泡菜
泡网分: 18.272
主题: 11
帖子: 15158
注册: 2012年6月
bird3000 发表于 2025-04-14 16:14
相对显存,内存还是慢,显卡的算力也不够。这类机器最大的优点是大点的模型能跑起来,只要内存够大,32B,70B,100多B的模型速度都差不多,每秒几个token吧。

差距那是不可避免的,显存带宽差距巨大,也就是体验一下而已
8845这种的最大可以支持256G内存,玩玩的话 可以体验更好一点的模型了。。。

速度就别想了,毕竟一分钱一分货吗。。。。毕竟也比CPU跑快那么一点....

现在ddr5 双通道 100G 4通道 200G,要是换到ddr6 4通道 有400g 基本上到低端显卡的带宽了,只要价格合适也不是不行啊,你看MAC 那边现在不就AI的很快乐呢,显卡显存太贵而且还扣扣搜搜,结果就是导致这些奇怪的办法都上马了
闲聊状态 编辑于 2025-04-14 16:32
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
山东省
陈年泡菜
泡网分: 60.991
主题: 54
帖子: 5655
注册: 2000年6月
闲聊状态 发表于 2025-04-14 08:35
24G “显存” 最便宜的达成方案 ---- AMD 8745H  + 32G 小主机,在bios里把显存设置成16G,然后驱动会从剩下的内存里划一半,加起来 --- 24G
至于速度吗。。。qwq32B q4 3-5 token 吧

相对显存,内存还是慢,显卡的算力也不够。这类机器最大的优点是大点的模型能跑起来,只要内存够大,32B,70B,100多B的模型速度都差不多,每秒几个token吧。
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
浙江省
泡菜
泡网分: 18.272
主题: 11
帖子: 15158
注册: 2012年6月
数据表是拉EXECL的,但是32G是我自己在机器上试过的,64G没有试过,另外我也没见过哪家的BIOS可以设置32G显存....
登录后可直接显示原图
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
山东省
泡菜
泡网分: 18.272
主题: 11
帖子: 15158
注册: 2012年6月
24G “显存” 最便宜的达成方案 ---- AMD 8745H  + 32G 小主机,在bios里把显存设置成16G,然后驱动会从剩下的内存里划一半,加起来 --- 24G

至于速度吗。。。qwq32B q4 3-5 token 吧
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
山东省
陈年泡菜
泡网分: 60.991
主题: 54
帖子: 5655
注册: 2000年6月
继续玩个人部署,用起来最顺手的居然是gemma3 27B Q4,24G显存,上下文开到12K,速度还能接受.
QWQ 32B Q4,上下文最高8K。推理效果很好,但太慢。主要用来搞RGA,但上下文太小受限制。
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
浙江省
泡菜
泡网分: 26.597
主题: 17
帖子: 1923
注册: 2003年12月
bird3000 发表于 2025-04-02 09:03
在电视机上看还是不行,看网上有其他的模型效果要好,但处理速度普通PC根本不行。

不应该指望AI会增加画面细节,多出来的细节取决于原视频是否有足够的信息量,有些网络下载的视频压缩过分,尤其某段时期国内网络流行的RMVB或AVI小视频,处理后看起来更糟,DVD rip未再进一步压缩的还不错。
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
云南省
陈年泡菜
泡网分: 60.991
主题: 54
帖子: 5655
注册: 2000年6月
机器条件好的可以试试gemma3 32B的模型,比起QWQ更快,输出内容也更“自由”一点。
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
浙江省
陈年泡菜
泡网分: 60.991
主题: 54
帖子: 5655
注册: 2000年6月
bird3000 发表于 2025-04-01 10:07
嗯,回去装一个试试。模型什么框架的?

在电视机上看还是不行,看网上有其他的模型效果要好,但处理速度普通PC根本不行。
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
浙江省
资深泡菜
泡网分: 22.153
主题: 107
帖子: 7407
注册: 2007年12月
视频处理类的模型,太需要这个了
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
北京
资深泡菜
泡网分: 22.153
主题: 107
帖子: 7407
注册: 2007年12月
不错
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
北京
泡菜
泡网分: 26.597
主题: 17
帖子: 1923
注册: 2003年12月
bird3000 发表于 2025-04-01 10:07
嗯,回去装一个试试。模型什么框架的?

专有调用,直接用Video2X程序就好,程序最新版是6.4.0,模型则是2022年的或更早的,几个模型在Git上也有自己的页面
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
云南省
陈年泡菜
泡网分: 60.991
主题: 54
帖子: 5655
注册: 2000年6月
ddtx 发表于 2025-04-01 08:58
Video2x内置的Real-ESRGUN和Real-CUGAN两个模型还是很快的,4060跑DVD规格480p片大约0.7倍的帧率,4080和5070Ti 跑大约1.5倍的帧率,libplacebo模型就慢了,1~2 fps。Real-ESRGUN...
嗯,回去装一个试试。模型什么框架的?
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
浙江省
泡菜
泡网分: 26.597
主题: 17
帖子: 1923
注册: 2003年12月
bird3000 发表于 2025-04-01 06:44
AI转视频太消耗算力了,机器运行一个晚上,还转不了一个视频,我基本放弃了。

Video2x内置的Real-ESRGUN和Real-CUGAN两个模型还是很快的,4060跑DVD规格480p片大约0.7倍的帧率,4080和5070Ti 跑大约1.5倍的帧率,libplacebo模型就慢了,1~2 fps。Real-ESRGUN是用纯动漫训练的,处理后有卡通感。Real-CUGAN用动漫和普通视频训练,也适合处理处理实拍影片,结果略为过度锐化,轻微卡通化,但比起原片画面改进很多,大显示器上看比原片更好接受
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
云南省
陈年泡菜
泡网分: 60.991
主题: 54
帖子: 5655
注册: 2000年6月
ddtx 发表于 2025-04-01 01:59
一個QWQ32足夠了,編程嫌QWQ有推理過程的話QWen2.5-code 32b也能湊合。
不過最近消耗我電量最多的AI模型是B站的Real-Cugan,由Video2x程序內置,把手上DVD時代和720P以下的下載舊視頻收藏做了一次2x,效果不錯,...
AI转视频太消耗算力了,机器运行一个晚上,还转不了一个视频,我基本放弃了。
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
浙江省
陈年泡菜
泡网分: 60.991
主题: 54
帖子: 5655
注册: 2000年6月
嗯,是的,这三个模型功能有重叠,gemma3 27B不错,可以识别图片可以玩很多东西,不过感觉效果还差一点,可能我用的是Q4的模型。DEEPSEEK基本不用了,QWQ基本可以代替了。
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
浙江省
泡菜
泡网分: 26.597
主题: 17
帖子: 1923
注册: 2003年12月
一個QWQ32足夠了,編程嫌QWQ有推理過程的話QWen2.5-code 32b也能湊合。

不過最近消耗我電量最多的AI模型是B站的Real-Cugan,由Video2x程序內置,把手上DVD時代和720P以下的下載舊視頻收藏做了一次2x,效果不錯,稍微些過度銳化。當然還可以用Topaz,不過Topaz Video AI用的也是國內開源模型,加了個更好的外殼而已。
字幕軟件SubtitleEdit支持本地ollama模型翻譯字幕,可用的模型是llama和Qwen,可以在翻譯高級選項裡修改設置翻譯一些提示給模型。因此期待QWen3發布。
語音轉字幕程序用的是Git上開源的Buzz,使用OpenAI開源的STT模型,至少英語識別率極高,重度土澳和三哥口音都能準確識別,別的語言暫時還未試過。
(0)
(0)
只看该作者
不看该作者
加入黑名单
举报
返回顶部
个人图文集
个人作品集
云南省
回复主题: 聊聊最近几个可以本地部署的AI模型吧
功能受限
游客无回复权限,请登录后再试