给自己搭一套本地AI大模型

前言

最近openclaw风生水起，各大厂商就推出了专属的“龙虾服务”。云服务商提供的一键部署“龙虾”专用的免费云主机；互联网大厂发布自家的“龙虾”客户端并免费送token。但免费只是引流，等客户使用习惯后收费项目就会逐步展开。比如云主机仅限免费30天后，免费token额度越送越少，然后提醒升级会员。所以要随心所欲长期折腾AI，还得是本地自建大模型，一次性投入永久解决token焦虑。在此记录分享我最近几周用AI计算卡在本地搭建大模型过程及趟过的坑。

正文

显卡选择

首次本地搭建大模型，所以目标比较低：

openclaw能有不错畅快聊天体验（尝试过纯CPU跑模型，5分钟回一个消息完全没有客户体验）
简单信息查询，资料整理
基于以上需求，我计划投入400RMB尝试下本地搭建大模型。在海鲜市场逛了一圈后看中了Nvidia的Tesla系列M60显卡16G显存，300元左右（但在安装ollama就有点后悔了）

基础设置

电源500w以上
设置Bios开启Abose 4G （不是所有主板都支持，我的微星Z170，bios里找了半天没找到，后面刷新最新Bios固件后找到该选项）
设置Bios默认使用集显或亮机卡进系统（这坑上我趟了3天）
显卡专用8Pin电源线，与电源8Pin线不通用需要转接。

驱动及CUDA安装

基本都按网上教程一步步操作

安装显卡驱动

安装CUDA

显卡调试

nvidia-smi -l 2

ollama安装配置

安装ollama在方法教程里面看到了这个表格，就知道显卡性能，再参考咸鱼价格就更好的选择。

Compute Capability	Family	Cards	Models
9.0	NVIDIA	H100	-
8.9	GeForce RTX 40xx	RTX 4090, RTX 4080, RTX 4070 Ti, RTX 4060 Ti	-
	NVIDIA Professional	L4, L40, RTX 6000	-
8.6	GeForce RTX 30xx	RTX 3090 Ti, RTX 3090, RTX 3080 Ti, RTX 3080, RTX 3070 Ti, RTX 3070, RTX 3060 Ti, RTX 3060	-
	NVIDIA Professional	A40, RTX A6000, RTX A5000, RTX A4000, RTX A3000, RTX A2000	-
8.0	NVIDIA	A10, A16, A2	-
7.5	GeForce GTX/RTX	GTX 1650 Ti, TITAN RTX, RTX 2080 Ti, RTX 2080, RTX 2070, RTX 2060	-
	NVIDIA Professional	T4, RTX 5000, RTX 4000, RTX 3000, T2000, T1200, T1000, T600, T500	-
	Quadro	RTX 8000, RTX 6000, RTX 5000, RTX 4000	-
7.0	NVIDIA	TITAN V, V100, Quadro GV100	-
6.1	NVIDIA TITAN	TITAN Xp, TITAN X	-
	GeForce GTX	GTX 1080 Ti, GTX 1080, GTX 1070 Ti, GTX 1070, GTX 1060, GTX 1050	-
	Quadro	P6000, P5200, P4200, P3200, P5000, P4000, P3000, P2200, P2000, P1000, P620, P600, P500, P520	-
	NVIDIA Tesla	P40, P4	-
6.0	NVIDIA Quadro	GP100	-
5.2	GeForce GTX	GTX TITAN X, GTX 980 Ti, GTX 980, GTX 970, GTX 960, GTX 950	-
	Quadro	M6000 24GB, M6000, M5000, M5500, M, M4000, M2200, M2000, M620	-
	NVIDIA Tesla	M60, M40	-
5.0	GeForce GTX	GTX 750 Ti, GTX 750, NVS 810	-
	Quadro	K2200, K1200, K620, M1200, M520, M5000, M, M4000, M, M3000, M, M2000, M, M1000, M, K620, M600, M500, M	-

ollama安装

nvidia-smi -L # 展示可用显卡

#修改ollama默认启动配置
CUDA_VISIBLE_DEVICES=0,1 #代表让ollama能识别到第几张显卡
OLLAMA_SCHED_SPREAD=1 #这几张卡均衡使用
OLLAMA_KEEP_ALIVE=-1  #模型一直加载, 不自动卸载
OLLAMA_HOST=0.0.0.0   #监听地址
OLLAMA_PORT=11434     #监听端口

openclaw本地配置

openclaw安装

总结

记录分享我从选择显卡、BIOS设置、驱动安装到ollama配置过程中的坑，有需要的可以参考。

参考

Tesla V100 在 Windows 下安装配置
 Nvidia Tesla P100在WIN10下目前（2026年1月28号）能启用WDDM和CUDA的最新版本
 ollama部署deepseek, 多显卡负载均衡
 保姆级教程 Ollama 部署 DeepSeek-R1 本地模型