deepseek快速进行本地部署

2025年2月14日 999+浏览

需要说明的是,这里是借助Lmstudio/Ollama直接部署,无需安装python。

1、因Ollama 未自带GUI图形界面,所以本文以LmStudio为例。

如图,根据你对应的电脑系统下载并安装LmStudio。

下载并安装LmStudio

2、安装完打开软件,在如图所示右下角齿轮修改设置→语言→改为“中文”。

修改语言1
改为中文
修改语言2

3、然后点击软件左边的“发现”,查找模型。如果你有本地的大模型,也可以在“我的模型”里面设置你的模型文件(文件类型为.gguf)

导入本地大模型

4、在”发现“搜索 ”deepseek ,选择你电脑配置能用的数量级模型。例如我电脑是CPU Intel i5-12400f 内存16G 显卡 GTX3070 ,我选择的是dp-7B的 先玩玩。(装都是能装的,主要是Token的生成速度不同,我这配置用7B每秒15个token左右)。

搜索安装大模型DeepSeek

5、你也可以通过指定配置来提高模型推理的能力。

内存方面:

量化模型:使用模型量化技术,将模型的参数从浮点数转换为低精度的数据类型(如 8 位整数或 4 位整数),可以显著减少内存占用。在 transformers 库中,可以通过指定 load_in_8bit=True 或 load_in_4bit=True 来实现。

显存方面:

  • 减少批量大小:在进行推理时,将批量大小设置为较小的值,避免一次性处理过多的数据。
  • 限制序列长度:在输入数据时,限制输入序列的长度,避免过长的序列占用过多的显存。

推理参数设置:

  • max_new_tokens:设置的生成 token 数量越多,推理时间越长。
  • do_sample:开启采样会增加推理的随机性,但也会增加计算量,影响速度。
  • top_p 和 temperature:这些参数会影响采样策略,不同的设置会对推理速度产生一定影响。

6、效果演示:

DeepSeek演示