本地跑 sd 和 local llm 推理, 什么显卡性价比最高？

38 条回复 • 2024-07-01 11:02:47 +08:00

1

justFxxk2060

158 天前

2080ti 魔改

2

13240284671

158 天前

3060ti 16g

3

13240284671

158 天前

说错了，4060 16g

4

hez2010

158 天前

本地一般是跑量化后的模型，你的显卡起码得支持 INT8 和 INT4 。

5

netizenHan

157 天前

应该要求不高吧，前两天看公司里有人用 M3 的 macpro 都能部署 LLaMA3-8B ，不过就是比较慢

6

cinlen

OP

157 天前

@justFxxk2060 有看到 2080ti + 22g 的方案，这个靠谱吗？

7

cinlen

OP

157 天前

@hez2010 最好是可以 fp16

8

my101du

157 天前

@13240284671 非 ti 的 4060 ，好像都是 8G 的？ 618 想装机都没找到 16G 的 4060.

9

cinlen

OP

157 天前

@netizenHan 目前我是 m1 跑小模型没啥问题。但还有 sd webui 和 sd comfyui 的需求，所以应该会攒台新机器。

10

ccloving

157 天前

如果是 SD 和 ollama ，用 A 卡是不是就可以

11

cinlen

OP

157 天前

@ccloving 好问题. 话说你不提我压根没想过 A 卡

12

ccloving

157 天前

@cinlen B 站上有人搞 A 卡，你搜搜，又不炼丹，按说没问题，大显存的显卡都不贵呀。

13

gam2046

157 天前

@netizenHan #5 8B 效果很一般，基本处于完全胡诌的状态，我用 3090 跑过，响应速度快，但是胡说八道。而 70B ，我的 3090 就跑不起来了。

14

SamLacey

157 天前

@cinlen 矿卡老祖了，如果售后有保障，或者你动手能力强可以冲，40 系老黄刀法太好了，60superti 与 70 价格差一倍，性能也刚好差一倍，显存不爆的情况下，只有时间差别

15

SamLacey

157 天前

反正挺推荐 4070ts 的

16

luchenwei9266

157 天前

看预算，3000 以下无脑选 2080ti 22G

17

goxxoo

157 天前

我算过了, 和一台 MBP 价格差不多...2w 以内

18

zysuper

157 天前

没钱选 NVIDIA GeForce RTX 4060 Ti ，

19

billgreen1

157 天前

M2 ULTRA 192GB,

20

cinlen

OP

157 天前

@luchenwei9266 可以考虑看看 , 魔改的 22g 踩雷概率高吗？

21

FlintyLemming

157 天前

@cinlen ollama 默认下的都是 int8 int4 的量化模型，根本就不会给你下 fp16 的，你显存小也没有必要跑没量化的模型

22

afeiche

157 天前

个人感觉显存大的，新一点的，毕竟现在有些大模型必须用 cuda12 以上了，我印象中 2 系列的，不支持 12

23

cinlen

OP

157 天前

@FlintyLemming 请教一下，如果我想要学习量化这个过程(我可以找一个 fp16 但是参数量小一点的模型例如 phi-2), 大致需要的显存应该如何计算？和推理一样用参数量乘以数据类型占用 bit 数吗？

24

keakon

157 天前

@cinlen https://huggingface.co/spaces/hf-accelerate/model-memory-usage

25

FlintyLemming

157 天前

@cinlen 量化跟推理不一样，显存没上限的，越多越快。建议你选一种量化方式比如 GGUF 然后看他的文档，然后根据设置的参数计算。

26

Greendays

157 天前

不能接受改装的话，应该就是 4060ti 16G 了吧，或者 3060 12G

27

Champa9ne

157 天前

居然没人推 P40 ？最廉价的 24G 显存，现在 LLM 能上大参数效果才可堪一用啊。自己一个人用，推理一次多等两分钟无所谓了吧？

28

woorz

157 天前

轻度最好用这个
[爽过甲骨文 9 条街] 免费用 A100 、V100 ！搭建 AI 工作站的终极攻略 https://www.bilibili.com/video/BV1nS421d72h/?share_source=copy_web&vd_source=b7bbd24169acd7296a98465ee4ab67ea

29

shuimugan

157 天前

@Champa9ne P40 太老了，带宽小，算力差，朋友拿 10 张去跑 Command R Plus 104B 8bit 推理，速度不到 2 token/s ，拿 M2 Ultra 192GB 跑起码还有 5.x token/s ，各种意义上的电子垃圾。

30

shuimugan

157 天前

@cinlen 2080ti 22g 我手头有 2 张，分别 24 小时开机 1 年和 1 年半，没啥问题。不建议买水冷版，单张的话建议买 2~3 风扇的。
涡轮卡适合挤多张但是噪音大，把功耗限制在 70%左右，风扇拉一下可以得到很好的噪音/性能表现，跑 AI 性能下降在 10%左右。买了一张就会买第二张，迟早走上 4 卡/8 卡的道路。

31

yianing

157 天前 via Android

4090, you buy more, you save more

32

flymeto

157 天前

2080ti 魔改，自己用一年了，没啥问题

33

cowcomic

156 天前

建议上安培架构的显卡，也就是 30 系和 40 系
印象一些推理加速技术还有一些量化的技术对显卡架构有要求需要安培架构以上的显卡

34

crackidz

156 天前

@ccloving @cinlen 千万别用 A 卡，一堆坑，最好的还是换 N 卡，别问我怎么知道的

35

crackidz

156 天前

跑 SD 最好还是显存足够大，跑 LLM 的话量化 int4 损失也不大，但 SD 是不一样的，基本上都需要 fp16 ，这样子的话 24G 显存是最好的选择，比如 3090 。当然你要是知道魔改卡的话那就...

36

luchenwei9266

156 天前

@cinlen #20 没什么雷，用了一年多了。建议上三风扇版本。

37

ccloving

155 天前

@crackidz 只是 ollama 推理和 SD 作图也不行吗？

38

crackidz

155 天前

@ccloving 主要是 SD 啊，ollama 是没什么问题的