ollama部署

        BASH
        
      
# 设置可跨域访问模型
set OLLAMA_ORIGINS=*
# 设置托管为任意IP
set OLLAMA_HOST=0.0.0.0
# 设置模型存放位置
set OLLAMA_MODELS=E:\ollama\models
# 运行ollama
.\ollama.exe serve
# 运行命令行的模型
.\ollama.exe run deepseek-r1:32b
# 新拉了模型后，ollama可能需要重启

nextchat设置

        BASH
        
      
# 安装 git nodejs yarn
git clone https://github.com/ChatGPTNextWeb/NextChat
npm install
# 按如下issue修改思考页的显示
# https://github.com/ChatGPTNextWeb/NextChat/issues/6123#issuecomment-2638954267
# 然后构建
yarn build
# 然后设置一些环境变量
# 禁止用户输入API key
export HIDE_USER_API_KEY=1
# 设置默认模型
export DEFAULT_MODEL=deepseek-r1:32b
# 设置自定义模型
export CUSTOM_MODELS=deepseek-r1:32b,deepseek-coder-v2:16b
# 设置模型访问的API key
export OPENAI_API_KEY=AAAAC3NzaC1lZDI1NTE5AAAAIHNHaze6TLR8KKKA4rsnBLuM8psqaOqhLw+t0tL1DFsn
# 设置模型访问的URL
export BASE_URL=http://192.168.1.87:11434
# 一些其他的参数如下
# OLLAMA_KEEP_ALIVE: 单位是秒，代表启动任何模型后，默认多久没动静就自动关闭了。-1就是永远后台运行
# OLLAMA_NUM_PARALLEL: 并行数目，默认是4. 注意，实际模型拉起后的context size（上下文长度）为你设置的上下文长度乘上并行数目。过大的并行数会导致过大的显存开销，非常划不来，除非你是企业，想给几千人同时提供访问，那么这个东西一般开个1或者2就够了。个人用的话，其实队列等待下是可以忍受的，你应该很难同时使用超过两个并行的请求了。如果想开更大的ctx size，这个建议设置为1
# OLLAMA_FLASH_ATTENTION: 可以设置为1。开启flash attention 加速。 flash attention 通过优化计算流程，减少数据到显存的搬运从而大概能提升2~4倍效率
# OLLAMA_TMPDIR: 可以设置为，X:\LLM\ollama_models\temp，不知道什么缓存用的临时文件路径，为了避免给我C盘拉屎，这个最好改了

# package.json 的 start 命令改一下
# next start -H 0.0.0.0 -p 3001
# 然后运行
yarn start

总结

本地模型的效果确实是差的多，最好还是用在线模型的能力来解决问题。

参考