Add WllamaError class, fix llama_decode hangs on long input text (#130)

* add WllamaError class * fix batching problem * build latest upstream source code * minor UI fix * v1.17.0
ngxson · Oct 31, 2024 · f7562fa · f7562fa
1 parent b727c3c
commit f7562fa
Show file tree

Hide file tree

Showing 11 changed files with 232 additions and 105 deletions.
diff --git a/actions.hpp b/actions.hpp
@@ -249,6 +249,8 @@ json action_load(app_t &app, json &body)
   return json{
       {"success", true},
       {"n_ctx", cparams.n_ctx},
+      {"n_batch", llama_n_batch(app.ctx)},
+      {"n_ubatch", llama_n_ubatch(app.ctx)},
       {"n_vocab", llama_n_vocab(app.model)},
       {"n_ctx_train", llama_n_ctx_train(app.model)},
       {"n_embd", llama_n_embd(app.model)},
@@ -325,8 +327,6 @@ json action_sampling_init(app_t &app, json &body)
     sparams.n_probs = body["n_probs"];
   if (body.contains("min_p"))
     sparams.min_p = body["min_p"];
-  if (body.contains("tfs_z"))
-    sparams.tfs_z = body["tfs_z"];
   if (body.contains("typical_p")) // for compat
     sparams.typ_p = body["typical_p"];
   if (body.contains("typ_p"))
@@ -428,7 +428,9 @@ json action_detokenize(app_t &app, json &body)
 json action_decode(app_t &app, json &body)
 {
   std::vector<llama_token> tokens_list = body["tokens"];
-  bool skip_logits = body.contains("skip_logits");
+  bool skip_logits = body.contains("skip_logits")
+    ? body.at("skip_logits").get<bool>()
+    : false;
   size_t i = 0;
   common_batch_clear(app.batch);
   for (auto id : tokens_list)

diff --git a/examples/main/src/components/ModelScreen.tsx b/examples/main/src/components/ModelScreen.tsx
@@ -1,4 +1,4 @@
-import { ManageModel, ModelState } from '../utils/types';
+import { ManageModel, ModelState, Screen } from '../utils/types';
 import { useWllama } from '../utils/wllama.context';
 import { FontAwesomeIcon } from '@fortawesome/react-fontawesome';
 import {
@@ -225,6 +225,7 @@ function ModelCard({
     unloadModel,
     removeCustomModel,
     currRuntimeInfo,
+    navigateTo,
   } = useWllama();
 
   const m = model;
@@ -321,12 +322,20 @@ function ModelCard({
             </>
           )}
           {m.state === ModelState.LOADED && (
-            <button
-              className="btn btn-outline btn-primary btn-sm mr-2"
-              onClick={() => unloadModel()}
-            >
-              Unload
-            </button>
+            <>
+              <button
+                className="btn btn-primary btn-sm mr-2"
+                onClick={() => navigateTo(Screen.CHAT)}
+              >
+                Start chat
+              </button>
+              <button
+                className="btn btn-outline btn-primary btn-sm mr-2"
+                onClick={() => unloadModel()}
+              >
+                Unload
+              </button>
+            </>
           )}
           {m.state === ModelState.NOT_DOWNLOADED && m.userAdded && (
             <button

diff --git a/examples/main/src/components/Sidebar.tsx b/examples/main/src/components/Sidebar.tsx
@@ -31,7 +31,7 @@ export default function Sidebar({ children }: { children: any }) {
 
         <div className="h-screen lg:max-h-[calc(100vh-4rem)] flex flex-col text-base-content bg-base-200">
           <div className="grow w-80 overflow-auto p-4">
-            <ul className="grow menu gap-1">
+            <ul className="menu gap-1 overflow-x-hidden">
               <li onClick={() => navigateTo(Screen.CHAT)}>
                 <a
                   className={
@@ -45,26 +45,28 @@ export default function Sidebar({ children }: { children: any }) {
                 <li
                   key={conv.id}
                   onClick={() => navigateTo(Screen.CHAT, conv.id)}
+                  className="group flex flex-row"
                 >
                   <a
-                    className={`group ${conv.id === currentConvId ? 'active' : ''}`}
+                    className={`${conv.id === currentConvId ? 'active' : ''} flex-1 min-w-0`}
                   >
-                    {conv.messages[0]?.content}
-                    <span className="text-right hidden group-hover:inline cursor-pointer">
-                      <FontAwesomeIcon
-                        icon={faTrashAlt}
-                        onClick={(e) => {
-                          e.preventDefault();
-                          if (
-                            confirm('Are you sure to delete this conversation?')
-                          ) {
-                            navigateTo(Screen.CHAT);
-                            deleteConversation(conv.id);
-                          }
-                        }}
-                      />
-                    </span>
+                    <div className="truncate">{conv.messages[0]?.content}</div>
                   </a>
+
+                  <span className="text-right hidden group-hover:inline">
+                    <FontAwesomeIcon
+                      icon={faTrashAlt}
+                      onClick={(e) => {
+                        e.preventDefault();
+                        if (
+                          confirm('Are you sure to delete this conversation?')
+                        ) {
+                          navigateTo(Screen.CHAT);
+                          deleteConversation(conv.id);
+                        }
+                      }}
+                    />
+                  </span>
                 </li>
               ))}
             </ul>
@@ -104,9 +106,7 @@ export default function Sidebar({ children }: { children: any }) {
               </li>
             </ul>
 
-            <div className="text-xs pl-6 pt-2">
-              Version {WLLAMA_VERSION}
-            </div>
+            <div className="text-xs pl-6 pt-2">Version {WLLAMA_VERSION}</div>
           </div>
         </div>
       </div>

diff --git a/examples/main/src/utils/utils.ts b/examples/main/src/utils/utils.ts
@@ -41,8 +41,12 @@ export const formatChat = async (
   const template = new Template(
     modelWllama.getChatTemplate() ?? DEFAULT_CHAT_TEMPLATE
   );
-  const bos_token: string = textDecoder.decode(await modelWllama.detokenize([modelWllama.getBOS()]));
-  const eos_token: string = textDecoder.decode(await modelWllama.detokenize([modelWllama.getEOS()]));
+  const bos_token: string = textDecoder.decode(
+    await modelWllama.detokenize([modelWllama.getBOS()])
+  );
+  const eos_token: string = textDecoder.decode(
+    await modelWllama.detokenize([modelWllama.getEOS()])
+  );
   return template.render({
     messages,
     bos_token,

diff --git a/llama.cpp b/llama.cpp
diff --git a/package.json b/package.json
@@ -1,6 +1,6 @@
 {
   "name": "@wllama/wllama",
-  "version": "1.16.4",
+  "version": "1.17.0",
   "description": "Low-level WASM binding for llama.cpp",
   "main": "index.js",
   "type": "module",

diff --git a/src/multi-thread/wllama.js b/src/multi-thread/wllama.js
diff --git a/src/multi-thread/wllama.wasm b/src/multi-thread/wllama.wasm
diff --git a/src/single-thread/wllama.js b/src/single-thread/wllama.js
diff --git a/src/single-thread/wllama.wasm b/src/single-thread/wllama.wasm