- 运行非量化版:内存超过19GB
- 运行量化版:内存超过8GB
通过Git克隆指定分支:
git clone -b minicpm-v2.5 https://github.com/OpenBMB/llama.cpp.git
进入llama.cpp目录并编译:
cd llama.cpp
make
make minicpmv-cli
前往Hugging Face或ModelScope下载所需模型:
git clone https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5
# 或者
git clone https://modelscope.cn/models/OpenBMB/MiniCPM-Llama3-V-2_5.git
-
获取模型中间输出,为转换为gguf作准备
python ./examples/minicpmv/minicpmv-surgery.py -m ../MiniCPM-Llama3-V-2_5
-
将Siglip模型转换为gguf
python ./examples/minicpmv/minicpmv-convert-image-encoder-to-gguf.py -m ../MiniCPM-Llama3-V-2_5 --minicpmv-projector ../MiniCPM-Llama3-V-2_5/minicpmv.projector --output-dir ../MiniCPM-Llama3-V-2_5/ --image-mean 0.5 0.5 0.5 --image-std 0.5 0.5 0.5
-
将语言模型转换为gguf
python ./convert.py ../MiniCPM-Llama3-V-2_5/model --outtype f16 --vocab-type bpe
如果需要,对语言模型进行量化:
./quantize ../MiniCPM-Llama3-V-2_5/model/model-8B-F16.gguf ../MiniCPM-Llama3-V-2_5/model/ggml-model-Q4_K_M.gguf Q4_K_M
使用以下命令进行推理:
-
使用非量化模型推理
./minicpmv-cli -m ../MiniCPM-Llama3-V-2_5/model/model-8B-F16.gguf --mmproj ../MiniCPM-Llama3-V-2_5/mmproj-model-f16.gguf -c 4096 --temp 0.7 --top-p 0.8 --top-k 100 --repeat-penalty 1.05 --image xx.jpg -p "What is in the image?"
-
使用量化模型推理
./minicpmv-cli -m ../MiniCPM-Llama3-V-2_5/model/ggml-model-Q4_K_M.gguf --mmproj ../MiniCPM-Llama3-V-2_5/mmproj-model-f16.gguf -c 4096 --temp 0.7 --top-p 0.8 --top-k 100 --repeat-penalty 1.05 --image xx.jpg -i
现在您可以开始使用llama.cpp进行高效推理了!