ggerganov · JohannesGaessler · Jun 26, 2023 · Jul 8, 2023
diff --git a/CMakeLists.txt b/CMakeLists.txt
@@ -71,6 +71,7 @@ option(LLAMA_CUBLAS                          "llama: use cuBLAS"
 set(LLAMA_CUDA_DMMV_X      "32" CACHE STRING "llama: x stride for dmmv CUDA kernels")
 set(LLAMA_CUDA_DMMV_Y       "1" CACHE STRING "llama: y block size for dmmv CUDA kernels")
 option(LLAMA_CUDA_DMMV_F16                   "llama: use 16 bit floats for dmmv CUDA kernels"   OFF)
+option(LLAMA_CUDA_DMM                        "llama: use dequantize mul mat CUDA kernels"       OFF)
 set(LLAMA_CUDA_KQUANTS_ITER "2" CACHE STRING "llama: iters./thread per block for Q2_K/Q6_K")
 option(LLAMA_CLBLAST                         "llama: use CLBlast"                               OFF)
 option(LLAMA_METAL                           "llama: use Metal"                                 OFF)
@@ -251,6 +252,9 @@ if (LLAMA_CUBLAS)
         if (LLAMA_CUDA_DMMV_F16)
             add_compile_definitions(GGML_CUDA_DMMV_F16)
         endif()
+        if (LLAMA_CUDA_DMM)
+            add_compile_definitions(GGML_CUDA_DMM)
+        endif()
         add_compile_definitions(K_QUANTS_PER_ITERATION=${LLAMA_CUDA_KQUANTS_ITER})
 
         if (LLAMA_STATIC)

diff --git a/Makefile b/Makefile
@@ -179,6 +179,9 @@ endif # LLAMA_CUDA_DMMV_Y
 ifdef LLAMA_CUDA_DMMV_F16
 	NVCCFLAGS += -DGGML_CUDA_DMMV_F16
 endif # LLAMA_CUDA_DMMV_F16
+ifdef LLAMA_CUDA_DMM
+	NVCCFLAGS += -DGGML_CUDA_DMM
+endif # LLAMA_CUDA_DMM
 ifdef LLAMA_CUDA_KQUANTS_ITER
 	NVCCFLAGS += -DK_QUANTS_PER_ITERATION=$(LLAMA_CUDA_KQUANTS_ITER)
 else