需要说明的是,这里是借助Lmstudio/Ollama直接部署,无需安装python。
1、因Ollama 未自带GUI图形界面,所以本文以LmStudio为例。
如图,根据你对应的电脑系统下载并安装LmStudio。
2、安装完打开软件,在如图所示右下角齿轮修改设置→语言→改为“中文”。
3、然后点击软件左边的“发现”,查找模型。如果你有本地的大模型,也可以在“我的模型”里面设置你的模型文件(文件类型为.gguf)
4、在”发现“搜索 ”deepseek ,选择你电脑配置能用的数量级模型。例如我电脑是CPU Intel i5-12400f 内存16G 显卡 GTX3070 ,我选择的是dp-7B的 先玩玩。(装都是能装的,主要是Token的生成速度不同,我这配置用7B每秒15个token左右)。
5、你也可以通过指定配置来提高模型推理的能力。
内存方面:
量化模型:使用模型量化技术,将模型的参数从浮点数转换为低精度的数据类型(如 8 位整数或 4 位整数),可以显著减少内存占用。在 transformers 库中,可以通过指定 load_in_8bit=True 或 load_in_4bit=True 来实现。
显存方面:
- 减少批量大小:在进行推理时,将批量大小设置为较小的值,避免一次性处理过多的数据。
- 限制序列长度:在输入数据时,限制输入序列的长度,避免过长的序列占用过多的显存。
推理参数设置:
max_new_tokens
:设置的生成 token 数量越多,推理时间越长。do_sample
:开启采样会增加推理的随机性,但也会增加计算量,影响速度。top_p
和temperature
:这些参数会影响采样策略,不同的设置会对推理速度产生一定影响。
6、效果演示: