Llama-v2-GPU-GTX-1650

Running Llama v2 with Llama.cpp in a 4GB VRAM GTX 1650.

Setup

To extend your Nvidia GPU resource and drivers to a docker container.

You need to install NVIDA CUDA Container Toolkit

Results

Llama.cpp recognizing cuBLAS optimizer

After optimizing values for inference

N_GPU_LAYERS=35
N_BATCH=4096
N_THREADS=4

Streaming support

gradio+llama_cpp-streaming.mp4

Generation Paramaters

Usage

Build APP Image

docker compose build

Get everything up and running

docker compose down && docker compose up -d

Have fun

Visit: http://localhost:7861/ to access the Gradio Chatbot UI.

Contributing

Installing pre-commit

Pre-commit is already part of this project dependencies. If you would like to installed it as standalone run:

pip install pre-commit

To activate pre-commit run the following commands:

Install Git hooks:

pre-commit install

Update current hooks:

pre-commit autoupdate

To test your installation of pre-commit run:

pre-commit run --all-files

Name		Name	Last commit message	Last commit date
Latest commit History 72 Commits
.devcontainer		.devcontainer
scripts		scripts
src		src
.dockerignore		.dockerignore
.gitignore		.gitignore
.pre-commit-config.yaml		.pre-commit-config.yaml
Dockerfile		Dockerfile
LICENSE		LICENSE
README.md		README.md
app.py		app.py
dev-requirements.in		dev-requirements.in
docker-compose.yml		docker-compose.yml
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Llama-v2-GPU-GTX-1650

Setup

Results

Llama.cpp recognizing cuBLAS optimizer

After optimizing values for inference

Streaming support

Generation Paramaters

Usage

Build APP Image

Get everything up and running

Have fun

Contributing

Installing pre-commit

About

Releases

Packages

Languages

License

kevinknights29/Llama-v2-GPU-GTX-1650

Folders and files

Latest commit

History

Repository files navigation

Llama-v2-GPU-GTX-1650

Setup

Results

Llama.cpp recognizing cuBLAS optimizer

After optimizing values for inference

Streaming support

Generation Paramaters

Usage

Build APP Image

Get everything up and running

Have fun

Contributing

Installing pre-commit

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages