diff --git a/llama.cpp b/llama.cpp
index 91cd929d1..3dbbe0a80 100644
--- a/llama.cpp
+++ b/llama.cpp
@@ -3700,7 +3700,7 @@ static bool llm_load_tensors(
     return ok;
 }
 
-// Returns -1 on error, -2 on cancellation via llama_progress_callback
+// Returns 0 on success, -1 on error, and -2 on cancellation via llama_progress_callback
 static int llama_model_load(const std::string & fname, llama_model & model, const llama_model_params & params) {
     try {
         llama_model_loader ml(fname, params.use_mmap, params.kv_overrides);
@@ -3719,7 +3719,7 @@ static int llama_model_load(const std::string & fname, llama_model & model, cons
 
         if (params.vocab_only) {
             LLAMA_LOG_INFO("%s: vocab only - skipping tensors\n", __func__);
-            return true;
+            return 0;
         }
 
         if (!llm_load_tensors(
diff --git a/tests/test-model-load-cancel.cpp b/tests/test-model-load-cancel.cpp
index 8da21af81..ff24a5955 100644
--- a/tests/test-model-load-cancel.cpp
+++ b/tests/test-model-load-cancel.cpp
@@ -1,17 +1,16 @@
 #include "llama.h"
 
 #include <cstdlib>
-#include <tuple>
 
 int main(void) {
     llama_backend_init(false);
     auto params = llama_model_params{};
     params.use_mmap = false;
     params.progress_callback = [](float progress, void * ctx){
-        std::ignore = ctx;
+        (void) ctx;
         return progress > 0.50;
     };
-    auto * model = llama_load_model_from_file("../models/7B/ggml-model-f16.gguf", params);
+    auto * model = llama_load_model_from_file("models/7B/ggml-model-f16.gguf", params);
     llama_backend_free();
     return model == nullptr ? EXIT_SUCCESS : EXIT_FAILURE;
 }