deepjavalibrary · lanking520 · Jul 18, 2024 · Jul 17, 2024 · Jul 18, 2024 · lanking520
@@ -15,20 +15,20 @@ ARG cuda_version=cu124
 ARG python_version=3.10
 ARG TORCH_VERSION=2.3.1
 ARG djl_version=0.29.0~SNAPSHOT
-ARG transformers_version=4.40.0
-ARG accelerate_version=0.29.3
-ARG tensorrtlibs_version=10.0.1
+ARG transformers_version=4.42.4
+ARG accelerate_version=0.32.1
+ARG tensorrtlibs_version=10.1.0
 # %2B is the url escape for the '+' character
-ARG trtllm_toolkit_version=0.10.0%2Bnightly
-ARG trtllm_version=v0.10.0
+ARG trtllm_toolkit_version=0.11.0%2Bnightly
+ARG trtllm_version=v0.11.0
 ARG cuda_python_version=12.4
 ARG peft_version=0.10.0
 ARG triton_version=r24.04
 ARG trtllm_toolkit_wheel="https://publish.djl.ai/tensorrt-llm/toolkit/tensorrt_llm_toolkit-${trtllm_toolkit_version}-py3-none-any.whl"
-ARG trtllm_wheel="https://djl-ai.s3.amazonaws.com/publish/tensorrt-llm/${trtllm_version}/tensorrt_llm-0.10.0-cp310-cp310-linux_x86_64.whl"
+ARG trtllm_wheel="https://publish.djl.ai/tensorrt-llm/${trtllm_version}/tensorrt_llm-0.11.0-cp310-cp310-linux_x86_64.whl"
 ARG triton_toolkit_wheel="https://publish.djl.ai/tritonserver/${triton_version}/tritontoolkit-24.4-py310-none-any.whl"
 ARG pydantic_version=2.6.1
-ARG modelopt_version=0.11.2
+ARG modelopt_version=0.13.1
 ARG janus_version=1.0.0
 ARG pynvml_verison=11.5.0
 ARG numpy_version=1.26.4
@@ -68,7 +68,7 @@ COPY distribution[s]/ ./
 RUN mv *.deb djl-serving_all.deb || true
 
 # Install CUDNN 8
-RUN apt-get update && apt-get install -y --no-install-recommends libcudnn8 && rm -rf /var/lib/apt/lists/*
+RUN apt-get update && apt-get install -y --no-install-recommends libcudnn9-cuda-12 && rm -rf /var/lib/apt/lists/*
 
 # Install OpenMPI and other deps
 ARG DEBIAN_FRONTEND=noninteractive

@@ -503,12 +503,6 @@ def get_model_name():
         "seq_length": [256],
         "tokenizer": "TheBloke/Llama-2-13B-fp16"
     },
-    "falcon-7b": {
-        "max_memory_per_gpu": [22.0],
-        "batch_size": [1, 4],
-        "seq_length": [256],
-        "tokenizer": "tiiuae/falcon-7b"
-    },
     "llama2-7b-smoothquant": {
         "max_memory_per_gpu": [22.0],
         "batch_size": [1, 4],

@@ -784,15 +784,6 @@
         "option.rolling_batch": "trtllm",
         "option.output_formatter": "jsonlines",
     },
-    "falcon-7b": {
-        "option.model_id": "s3://djl-llm/triton/0.10.0/falcon-7b-tp1-bs16/",
-        "option.tensor_parallel_degree": 1,
-        "option.max_input_len": 1024,
-        "option.max_output_len": 512,
-        "option.max_rolling_batch_size": 16,
-        "option.rolling_batch": "auto",
-        "option.output_formatter": "jsonlines",
-    },
     "llama2-7b-smoothquant": {
         "option.model_id": "s3://djl-llm/meta-llama-Llama-2-7b-chat-hf/",
         "option.tensor_parallel_degree": 4,

@@ -266,12 +266,6 @@ def test_llama2_13b_tp4(self):
             r.launch("CUDA_VISIBLE_DEVICES=0,1,2,3")
             client.run("trtllm llama2-13b".split())
 
-    def test_falcon_triton(self):
-        with Runner('tensorrt-llm', 'falcon-7b') as r:
-            prepare.build_trtllm_handler_model("falcon-7b")
-            r.launch("CUDA_VISIBLE_DEVICES=0")
-            client.run("trtllm falcon-7b".split())
-
     def test_internlm_7b(self):
         with Runner('tensorrt-llm', 'internlm-7b') as r:
             prepare.build_trtllm_handler_model("internlm-7b")