【高性能OpenAI LLM服务】通过GPRS+TensorRT-LLM+Tokenizers.cpp实现纯C++版高性能OpenAI LLM服务,支持chat和function call模式,支持ai agent,支持分布式多卡推理,支持多模态,支持gradio聊天界面。
openai multi-modal function-call ai-agent llm llama-index chatglm tensorrt-llm qwen2 qwen-vl llama3 internvl2 qwen2-vl deepseek-r1
-
Updated
Feb 7, 2025 - C++