ollama部署deepseek
Easul Lv6

ollama部署

BASH
1
2
3
4
5
6
7
8
9
10
11
# 设置可跨域访问模型
set OLLAMA_ORIGINS=*
# 设置托管为任意IP
set OLLAMA_HOST=0.0.0.0
# 设置模型存放位置
set OLLAMA_MODELS=E:\ollama\models
# 运行ollama
.\ollama.exe serve
# 运行命令行的模型
.\ollama.exe run deepseek-r1:32b
# 新拉了模型后,ollama可能需要重启

nextchat设置

BASH
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
# 安装 git nodejs yarn
git clone https://github.com/ChatGPTNextWeb/NextChat
npm install
# 按如下issue修改思考页的显示
# https://github.com/ChatGPTNextWeb/NextChat/issues/6123#issuecomment-2638954267
# 然后构建
yarn build
# 然后设置一些环境变量
# 禁止用户输入API key
export HIDE_USER_API_KEY=1
# 设置默认模型
export DEFAULT_MODEL=deepseek-r1:32b
# 设置自定义模型
export CUSTOM_MODELS=deepseek-r1:32b,deepseek-coder-v2:16b
# 设置模型访问的API key
export OPENAI_API_KEY=AAAAC3NzaC1lZDI1NTE5AAAAIHNHaze6TLR8KKKA4rsnBLuM8psqaOqhLw+t0tL1DFsn
# 设置模型访问的URL
export BASE_URL=http://192.168.1.87:11434
# 一些其他的参数如下
# OLLAMA_KEEP_ALIVE: 单位是秒,代表启动任何模型后,默认多久没动静就自动关闭了。-1就是永远后台运行
# OLLAMA_NUM_PARALLEL: 并行数目,默认是4. 注意,实际模型拉起后的context size(上下文长度)为你设置的上下文长度乘上并行数目。过大的并行数会导致过大的显存开销,非常划不来,除非你是企业,想给几千人同时提供访问,那么这个东西一般开个1或者2就够了。个人用的话,其实队列等待下是可以忍受的,你应该很难同时使用超过两个并行的请求了。如果想开更大的ctx size,这个建议设置为1
# OLLAMA_FLASH_ATTENTION: 可以设置为1。开启flash attention 加速。 flash attention 通过优化计算流程,减少数据到显存的搬运从而大概能提升2~4倍效率
# OLLAMA_TMPDIR: 可以设置为,X:\LLM\ollama_models\temp,不知道什么缓存用的临时文件路径,为了避免给我C盘拉屎,这个最好改了

# package.json 的 start 命令改一下
# next start -H 0.0.0.0 -p 3001
# 然后运行
yarn start

总结

本地模型的效果确实是差的多,最好还是用在线模型的能力来解决问题。

参考

 评论