diff --git a/.flake8 b/.flake8
new file mode 100644
index 00000000..ed6cb49d
--- /dev/null
+++ b/.flake8
@@ -0,0 +1,6 @@
+[flake8]
+exclude =
+    .git,
+    __pycache__,
+    .pytest_cache
+max-line-length = 120
diff --git a/.github/workflows/ci.yml b/.github/workflows/ci.yml
index 828a5afd..a71424ec 100644
--- a/.github/workflows/ci.yml
+++ b/.github/workflows/ci.yml
@@ -43,7 +43,7 @@ jobs:
             3.9
       - name: Build and test
         run: |
-          sbt -java-home "$JAVA_HOME_8_X64" clean scalafmtCheckAll +test -DsparkVersion="$SPARK_VERSION"
+          sbt -java-home "$JAVA_HOME_8_X64" clean scalafmtCheckAll blackCheck flake8 +test -DsparkVersion="$SPARK_VERSION"
       - name: Publish Unit test results
         uses: mikepenz/action-junit-report@v4
         with:
diff --git a/build.sbt b/build.sbt
index 84c5b0d0..17a9da18 100644
--- a/build.sbt
+++ b/build.sbt
@@ -43,12 +43,24 @@ lazy val noPublishSettings =
 val hnswLibVersion = "1.1.2"
 val sparkVersion = settingKey[String]("Spark version")
 
-lazy val pyTest    = taskKey[Unit]("Run the python tests")
+lazy val createVirtualEnv = taskKey[Unit]("Create venv")
+lazy val pyTest           = taskKey[Unit]("Run the python tests")
+lazy val black            = taskKey[Unit]("Run the black code formatter")
+lazy val blackCheck       = taskKey[Unit]("Run the black code formatter in check mode")
+lazy val flake8           = taskKey[Unit]("Run the flake8 style enforcer")
 
 lazy val root = (project in file("."))
   .aggregate(hnswlibSpark)
   .settings(noPublishSettings)
 
+lazy val pythonVersion = Def.setting {
+  if (scalaVersion.value == "2.11.12") "python3.7" else "python3.9"
+}
+
+lazy val venvFolder = Def.setting {
+  s"${baseDirectory.value}/.venv"
+}
+
 lazy val hnswlibSpark = (project in file("hnswlib-spark"))
   .settings(
     name := s"hnswlib-spark_${sparkVersion.value.split('.').take(2).mkString("_")}",
@@ -78,28 +90,48 @@ lazy val hnswlibSpark = (project in file("hnswlib-spark"))
       _.withIncludeScala(false)
     },
     sparkVersion := sys.props.getOrElse("sparkVersion", "3.3.2"),
+    createVirtualEnv := {
+      val ret = (
+        s"${pythonVersion.value} -m venv ${venvFolder.value}" #&&
+        s"${venvFolder.value}/bin/pip install wheel==0.42.0 pytest==7.4.3 pyspark[ml]==${sparkVersion.value} black==23.3.0 flake8==5.0.4"
+      ).!
+      require(ret == 0, "Creating venv failed")
+    },
     pyTest := {
       val log = streams.value.log
 
       val artifactPath = (Compile / assembly).value.getAbsolutePath
+      val venv = venvFolder.value
+      val python = pythonVersion.value
+
       if (scalaVersion.value == "2.12.18" && sparkVersion.value >= "3.0.0" || scalaVersion.value == "2.11.12") {
-        val pythonVersion = if (scalaVersion.value == "2.11.12") "python3.7" else "python3.9"
-        val ret = Process(
-          Seq("./run-pyspark-tests.sh", sparkVersion.value, pythonVersion),
-          cwd = baseDirectory.value,
-          extraEnv = "ARTIFACT_PATH" -> artifactPath
-        ).!
+        val ret = Process(Seq(s"$venv/bin/pytest", "src/test/python"), cwd = baseDirectory.value, extraEnv = "ARTIFACT_PATH" -> artifactPath, "PYTHONPATH" -> s"${baseDirectory.value}/src/main/python", "PYSPARK_PYTHON" -> python).!
         require(ret == 0, "Python tests failed")
       } else {
         // pyspark packages support just one version of scala. You cannot use 2.13.x because it ships with 2.12.x jars
         log.info(s"Running pyTests for Scala ${scalaVersion.value} and Spark ${sparkVersion.value} is not supported.")
       }
     },
+    pyTest := pyTest.dependsOn(assembly, createVirtualEnv).value,
+    blackCheck := {
+      val ret = s"${venvFolder.value}/bin/black --check ${baseDirectory.value}/src/main/python".!
+      require(ret == 0, "Black failed")
+    },
+    blackCheck := blackCheck.dependsOn(createVirtualEnv).value,
+    black := {
+      val ret = s"${venvFolder.value}/bin/black ${baseDirectory.value}/src/main/python".!
+      require(ret == 0, "Black failed")
+    },
+    black := black.dependsOn(createVirtualEnv).value,
+    flake8 := {
+      val ret = s"${venvFolder.value}/bin/flake8 ${baseDirectory.value}/src/main/python".!
+      require(ret == 0, "Flake8 failed")
+    },
+    flake8 := flake8.dependsOn(createVirtualEnv).value,
     test := {
       (Test / test).value
       (Test / pyTest).value
     },
-    pyTest := pyTest.dependsOn(assembly).value,
     libraryDependencies ++= Seq(
       "com.github.jelmerk" %  "hnswlib-utils"      % hnswLibVersion,
       "com.github.jelmerk" %  "hnswlib-core-jdk17" % hnswLibVersion,
diff --git a/hnswlib-spark/run-pyspark-tests.sh b/hnswlib-spark/run-pyspark-tests.sh
deleted file mode 100755
index 20081f19..00000000
--- a/hnswlib-spark/run-pyspark-tests.sh
+++ /dev/null
@@ -1,25 +0,0 @@
-#!/usr/bin/env bash
-
-set -e
-
-SPARK_VERSION=$1
-PYTHON_VERSION=$2
-
-# add python sources on the path
-export PYTHONPATH=src/main/python
-
-# unset SPARK_HOME or it will use whatever is configured on the host system instead of the pip packages
-unset SPARK_HOME
-
-# create a virtual environment
-
-eval "$PYTHON_VERSION -m venv "target/spark-$SPARK_VERSION-venv""
-source "target/spark-$SPARK_VERSION-venv/bin/activate"
-
-# install packages
-pip install wheel==0.42.0
-pip install pytest==7.4.3
-pip install 'pyspark[ml]'=="$SPARK_VERSION"
-
-# run unit tests
-pytest --junitxml=target/test-reports/TEST-python.xml
diff --git a/hnswlib-spark/src/main/python/com/github/jelmerk/spark/conversion/__init__.py b/hnswlib-spark/src/main/python/com/github/jelmerk/spark/conversion/__init__.py
index d7734861..3ace0352 100644
--- a/hnswlib-spark/src/main/python/com/github/jelmerk/spark/conversion/__init__.py
+++ b/hnswlib-spark/src/main/python/com/github/jelmerk/spark/conversion/__init__.py
@@ -1,4 +1,4 @@
 import sys
 import pyspark_hnsw.conversion
 
-sys.modules['com.github.jelmerk.spark.conversion'] = pyspark_hnsw.conversion
+sys.modules["com.github.jelmerk.spark.conversion"] = pyspark_hnsw.conversion
diff --git a/hnswlib-spark/src/main/python/com/github/jelmerk/spark/knn/bruteforce/__init__.py b/hnswlib-spark/src/main/python/com/github/jelmerk/spark/knn/bruteforce/__init__.py
index 0393eccc..e8a13f43 100644
--- a/hnswlib-spark/src/main/python/com/github/jelmerk/spark/knn/bruteforce/__init__.py
+++ b/hnswlib-spark/src/main/python/com/github/jelmerk/spark/knn/bruteforce/__init__.py
@@ -1,4 +1,4 @@
 import sys
 import pyspark_hnsw.knn
 
-sys.modules['com.github.jelmerk.spark.knn.bruteforce'] = pyspark_hnsw.knn
+sys.modules["com.github.jelmerk.spark.knn.bruteforce"] = pyspark_hnsw.knn
diff --git a/hnswlib-spark/src/main/python/com/github/jelmerk/spark/knn/evaluation/__init__.py b/hnswlib-spark/src/main/python/com/github/jelmerk/spark/knn/evaluation/__init__.py
index c26a2188..a11f230d 100644
--- a/hnswlib-spark/src/main/python/com/github/jelmerk/spark/knn/evaluation/__init__.py
+++ b/hnswlib-spark/src/main/python/com/github/jelmerk/spark/knn/evaluation/__init__.py
@@ -1,4 +1,4 @@
 import sys
 import pyspark_hnsw.evaluation
 
-sys.modules['com.github.jelmerk.spark.knn.evaluation'] = pyspark_hnsw.evaluation
+sys.modules["com.github.jelmerk.spark.knn.evaluation"] = pyspark_hnsw.evaluation
diff --git a/hnswlib-spark/src/main/python/com/github/jelmerk/spark/knn/hnsw/__init__.py b/hnswlib-spark/src/main/python/com/github/jelmerk/spark/knn/hnsw/__init__.py
index b3e87b00..175e7374 100644
--- a/hnswlib-spark/src/main/python/com/github/jelmerk/spark/knn/hnsw/__init__.py
+++ b/hnswlib-spark/src/main/python/com/github/jelmerk/spark/knn/hnsw/__init__.py
@@ -1,4 +1,4 @@
 import sys
 import pyspark_hnsw.knn
 
-sys.modules['com.github.jelmerk.spark.knn.hnsw'] = pyspark_hnsw.knn
\ No newline at end of file
+sys.modules["com.github.jelmerk.spark.knn.hnsw"] = pyspark_hnsw.knn
diff --git a/hnswlib-spark/src/main/python/com/github/jelmerk/spark/linalg/__init__.py b/hnswlib-spark/src/main/python/com/github/jelmerk/spark/linalg/__init__.py
index 6d0fdbe4..4cd8090b 100644
--- a/hnswlib-spark/src/main/python/com/github/jelmerk/spark/linalg/__init__.py
+++ b/hnswlib-spark/src/main/python/com/github/jelmerk/spark/linalg/__init__.py
@@ -1,4 +1,4 @@
 import sys
 import pyspark_hnsw.linalg
 
-sys.modules['com.github.jelmerk.spark.linalg'] = pyspark_hnsw.linalg
\ No newline at end of file
+sys.modules["com.github.jelmerk.spark.linalg"] = pyspark_hnsw.linalg
diff --git a/hnswlib-spark/src/main/python/pyspark_hnsw/__init__.py b/hnswlib-spark/src/main/python/pyspark_hnsw/__init__.py
index 1e2d3598..cd64e8c5 100644
--- a/hnswlib-spark/src/main/python/pyspark_hnsw/__init__.py
+++ b/hnswlib-spark/src/main/python/pyspark_hnsw/__init__.py
@@ -6,13 +6,15 @@
 from pyspark.java_gateway import launch_gateway
 
 
-def start(spark23=False,
-          spark24=False,
-          spark31=False,
-          memory="16G",
-          cache_folder="/tmp",
-          real_time_output=False,
-          output_level=1):
+def start(
+    spark23=False,
+    spark24=False,
+    spark31=False,
+    memory="16G",
+    cache_folder="/tmp",
+    real_time_output=False,
+    output_level=1,
+):
     """Starts a PySpark instance with default parameters for Hnswlib.
 
     The default parameters would result in the equivalent of:
@@ -62,7 +64,6 @@ def start(spark23=False,
     current_version = "1.1.0"
 
     class HnswlibConfig:
-
         def __init__(self):
             self.master = "local[*]"
             self.app_name = "Hnswlib"
@@ -71,20 +72,27 @@ def __init__(self):
             # Hnswlib on Apache Spark 3.2.x
 
             # Hnswlib on Apache Spark 3.0.x/3.1.x
-            self.maven_spark = "com.github.jelmerk:hnswlib-spark_3.1_2.12:{}".format(current_version)
+            self.maven_spark = "com.github.jelmerk:hnswlib-spark_3.1_2.12:{}".format(
+                current_version
+            )
             # Hnswlib on Apache Spark 2.4.x
-            self.maven_spark24 = "com.github.jelmerk:hnswlib-spark_2.4_2.12:{}".format(current_version)
+            self.maven_spark24 = "com.github.jelmerk:hnswlib-spark_2.4_2.12:{}".format(
+                current_version
+            )
             # Hnswlib on Apache Spark 2.3.x
-            self.maven_spark23 = "com.github.jelmerk:hnswlib-spark_2.3_2.11:{}".format(current_version)
+            self.maven_spark23 = "com.github.jelmerk:hnswlib-spark_2.3_2.11:{}".format(
+                current_version
+            )
 
     def start_without_realtime_output():
-        builder = SparkSession.builder \
-            .appName(spark_nlp_config.app_name) \
-            .master(spark_nlp_config.master) \
-            .config("spark.driver.memory", memory) \
-            .config("spark.serializer", spark_nlp_config.serializer) \
-            .config("spark.kryo.registrator", spark_nlp_config.registrator) \
+        builder = (
+            SparkSession.builder.appName(spark_nlp_config.app_name)
+            .master(spark_nlp_config.master)
+            .config("spark.driver.memory", memory)
+            .config("spark.serializer", spark_nlp_config.serializer)
+            .config("spark.kryo.registrator", spark_nlp_config.registrator)
             .config("spark.hnswlib.settings.index.cache_folder", cache_folder)
+        )
 
         if spark23:
             builder.config("spark.jars.packages", spark_nlp_config.maven_spark23)
@@ -96,9 +104,7 @@ def start_without_realtime_output():
         return builder.getOrCreate()
 
     def start_with_realtime_output():
-
         class SparkWithCustomGateway:
-
             def __init__(self):
                 spark_conf = SparkConf()
                 spark_conf.setAppName(spark_nlp_config.app_name)
@@ -107,17 +113,21 @@ def __init__(self):
                 spark_conf.set("spark.serializer", spark_nlp_config.serializer)
                 spark_conf.set("spark.kryo.registrator", spark_nlp_config.registrator)
                 spark_conf.set("spark.jars.packages", spark_nlp_config.maven_spark)
-                spark_conf.set("spark.hnswlib.settings.index.cache_folder", cache_folder)
+                spark_conf.set(
+                    "spark.hnswlib.settings.index.cache_folder", cache_folder
+                )
 
                 # Make the py4j JVM stdout and stderr available without buffering
                 popen_kwargs = {
-                    'stdout': subprocess.PIPE,
-                    'stderr': subprocess.PIPE,
-                    'bufsize': 0
+                    "stdout": subprocess.PIPE,
+                    "stderr": subprocess.PIPE,
+                    "bufsize": 0,
                 }
 
                 # Launch the gateway with our custom settings
-                self.gateway = launch_gateway(conf=spark_conf, popen_kwargs=popen_kwargs)
+                self.gateway = launch_gateway(
+                    conf=spark_conf, popen_kwargs=popen_kwargs
+                )
                 self.process = self.gateway.proc
                 # Use the gateway we launched
                 spark_context = SparkContext(gateway=self.gateway)
@@ -132,15 +142,15 @@ def std_background_listeners(self):
                 self.error_thread.start()
 
             def output_reader(self):
-                for line in iter(self.process.stdout.readline, b''):
-                    print('{0}'.format(line.decode('utf-8')), end='')
+                for line in iter(self.process.stdout.readline, b""):
+                    print("{0}".format(line.decode("utf-8")), end="")
 
             def error_reader(self):
-                RED = '\033[91m'
-                RESET = '\033[0m'
-                for line in iter(self.process.stderr.readline, b''):
+                RED = "\033[91m"
+                RESET = "\033[0m"
+                for line in iter(self.process.stderr.readline, b""):
                     if output_level == 0:
-                        print(RED + '{0}'.format(line.decode('utf-8')) + RESET, end='')
+                        print(RED + "{0}".format(line.decode("utf-8")) + RESET, end="")
                     else:
                         # output just info
                         pass
@@ -164,7 +174,6 @@ def shutdown(self):
         else:
             # Available from Spark 3.0.x
             class SparkRealTimeOutput:
-
                 def __init__(self):
                     self.__spark_with_custom_gateway = start_with_realtime_output()
                     self.spark_session = self.__spark_with_custom_gateway.spark_session
@@ -186,4 +195,4 @@ def version():
     str
         The current Hnswlib version.
     """
-    return '1.1.0'
+    return "1.1.0"
diff --git a/hnswlib-spark/src/main/python/pyspark_hnsw/conversion.py b/hnswlib-spark/src/main/python/pyspark_hnsw/conversion.py
index 1dcfd366..81cb7235 100644
--- a/hnswlib-spark/src/main/python/pyspark_hnsw/conversion.py
+++ b/hnswlib-spark/src/main/python/pyspark_hnsw/conversion.py
@@ -1,19 +1,35 @@
-from pyspark.ml.param.shared import *
+from pyspark.ml.param.shared import (
+    Params,
+    Param,
+    TypeConverters,
+    HasInputCol,
+    HasOutputCol,
+)
 from pyspark.ml.wrapper import JavaTransformer
 from pyspark.ml.util import JavaMLReadable, JavaMLWritable
 from pyspark.mllib.common import inherit_doc
+
+# noinspection PyProtectedMember
 from pyspark import keyword_only
 
-__all__ = ['VectorConverter']
+__all__ = ["VectorConverter"]
+
 
+# noinspection PyPep8Naming
 @inherit_doc
-class VectorConverter(JavaTransformer, HasInputCol, HasOutputCol, JavaMLReadable, JavaMLWritable):
+class VectorConverter(
+    JavaTransformer, HasInputCol, HasOutputCol, JavaMLReadable, JavaMLWritable
+):
     """
     Converts the input vector to a vector of another type.
     """
 
-    outputType = Param(Params._dummy(), "outputType", "type of vector to produce. one of array<float>, array<double>, vector",
-                       typeConverter=TypeConverters.toString)
+    outputType = Param(
+        Params._dummy(),
+        "outputType",
+        "type of vector to produce. one of array<float>, array<double>, vector",
+        typeConverter=TypeConverters.toString,
+    )
 
     @keyword_only
     def __init__(self, inputCol="input", outputCol="output", outputType="array<float>"):
@@ -21,12 +37,16 @@ def __init__(self, inputCol="input", outputCol="output", outputType="array<float
         __init__(self, inputCol="input", outputCol="output", outputType="array<float>")
         """
         super(VectorConverter, self).__init__()
-        self._java_obj = self._new_java_obj("com.github.jelmerk.spark.conversion.VectorConverter", self.uid)
+        self._java_obj = self._new_java_obj(
+            "com.github.jelmerk.spark.conversion.VectorConverter", self.uid
+        )
         kwargs = self._input_kwargs
         self.setParams(**kwargs)
 
     @keyword_only
-    def setParams(self, inputCol="input", outputCol="output", outputType="array<float>"):
+    def setParams(
+        self, inputCol="input", outputCol="output", outputType="array<float>"
+    ):
         """
         setParams(self, inputCol="input", outputCol="output", outputType="array<float>")
         Sets params for this VectorConverter.
diff --git a/hnswlib-spark/src/main/python/pyspark_hnsw/evaluation.py b/hnswlib-spark/src/main/python/pyspark_hnsw/evaluation.py
index 2f556693..d52a57c4 100644
--- a/hnswlib-spark/src/main/python/pyspark_hnsw/evaluation.py
+++ b/hnswlib-spark/src/main/python/pyspark_hnsw/evaluation.py
@@ -1,25 +1,44 @@
+# noinspection PyProtectedMember
 from pyspark.ml.evaluation import JavaEvaluator
-from pyspark.ml.param.shared import *
+from pyspark.ml.param.shared import Param
 from pyspark.mllib.common import inherit_doc
+
+# noinspection PyProtectedMember
 from pyspark import keyword_only
 from pyspark.ml.util import JavaMLReadable, JavaMLWritable
 
-__all__ = ['KnnSimilarityEvaluator']
+__all__ = ["KnnSimilarityEvaluator"]
+
 
+# noinspection PyPep8Naming
 @inherit_doc
 class KnnSimilarityEvaluator(JavaEvaluator, JavaMLReadable, JavaMLWritable):
     """
     Evaluate the performance of a knn model.
     """
+
     @keyword_only
-    def __init__(self, approximateNeighborsCol="approximateNeighbors", exactNeighborsCol="exactNeighbors"):
+    def __init__(
+        self,
+        approximateNeighborsCol="approximateNeighbors",
+        exactNeighborsCol="exactNeighbors",
+    ):
         super(JavaEvaluator, self).__init__()
-        self._java_obj = self._new_java_obj("com.github.jelmerk.spark.knn.evaluation.KnnSimilarityEvaluator", self.uid)
+        self._java_obj = self._new_java_obj(
+            "com.github.jelmerk.spark.knn.evaluation.KnnSimilarityEvaluator", self.uid
+        )
 
-        self.approximateNeighborsCol = Param(self, "approximateNeighborsCol", "the column name for the row identifier")
-        self.exactNeighborsCol = Param(self, "exactNeighborsCol", "the column name for the vector")
+        self.approximateNeighborsCol = Param(
+            self, "approximateNeighborsCol", "the column name for the row identifier"
+        )
+        self.exactNeighborsCol = Param(
+            self, "exactNeighborsCol", "the column name for the vector"
+        )
 
-        self._setDefault(approximateNeighborsCol="approximateNeighbors", exactNeighborsCol="exactNeighbors")
+        self._setDefault(
+            approximateNeighborsCol="approximateNeighbors",
+            exactNeighborsCol="exactNeighbors",
+        )
 
         kwargs = self._input_kwargs
         self.setParams(**kwargs)
@@ -49,6 +68,10 @@ def setExactNeighborsCol(self, value):
         return self._set(exactNeighborsCol=value)
 
     @keyword_only
-    def setParams(self, approximateNeighborsCol="approximateNeighbors", exactNeighborsCol="exactNeighbors"):
+    def setParams(
+        self,
+        approximateNeighborsCol="approximateNeighbors",
+        exactNeighborsCol="exactNeighbors",
+    ):
         kwargs = self._input_kwargs
         return self._set(**kwargs)
diff --git a/hnswlib-spark/src/main/python/pyspark_hnsw/knn.py b/hnswlib-spark/src/main/python/pyspark_hnsw/knn.py
index 6380abcc..d1ac2f19 100644
--- a/hnswlib-spark/src/main/python/pyspark_hnsw/knn.py
+++ b/hnswlib-spark/src/main/python/pyspark_hnsw/knn.py
@@ -1,18 +1,33 @@
-from pyspark.ml.wrapper import JavaEstimator, JavaModel, JavaParams
-from pyspark.ml.param.shared import *
+from pyspark.ml.wrapper import JavaEstimator, JavaModel
+from pyspark.ml.param.shared import (
+    Params,
+    Param,
+    HasFeaturesCol,
+    HasPredictionCol,
+    TypeConverters,
+)
 from pyspark.mllib.common import inherit_doc
+
+# noinspection PyProtectedMember
 from pyspark import keyword_only
 from pyspark.ml.util import JavaMLReadable, JavaMLWritable, MLReader, _jvm
 
-__all__ = ['HnswSimilarity', 'HnswSimilarityModel', 'BruteForceSimilarity', 'BruteForceSimilarityModel', 'HnswLibMLReader']
+__all__ = [
+    "HnswSimilarity",
+    "HnswSimilarityModel",
+    "BruteForceSimilarity",
+    "BruteForceSimilarityModel",
+    "HnswLibMLReader",
+]
 
-class HnswLibMLReader(MLReader):
 
+class HnswLibMLReader(MLReader):
     """
     Specialization of :py:class:`MLReader` for :py:class:`JavaParams` types
     """
 
     def __init__(self, clazz, java_class):
+        super().__init__()
         self._clazz = clazz
         self._jread = self._load_java_obj(java_class).read()
 
@@ -29,33 +44,69 @@ def _load_java_obj(cls, java_class):
             java_obj = getattr(java_obj, name)
         return java_obj
 
+
+# noinspection PyPep8Naming
 @inherit_doc
 class _KnnModelParams(HasFeaturesCol, HasPredictionCol):
     """
     Params for knn models.
     """
 
-    queryIdentifierCol = Param(Params._dummy(), "queryIdentifierCol", "the column name for the query identifier",
-                               typeConverter=TypeConverters.toString)
-
-    queryPartitionsCol = Param(Params._dummy(), "queryPartitionsCol", "the column name for the query partitions",
-                               typeConverter=TypeConverters.toString)
-
-    parallelism = Param(Params._dummy(), "parallelism", "number of threads to use", typeConverter=TypeConverters.toInt)
-
-    k = Param(Params._dummy(), "k", "number of neighbors to find", typeConverter=TypeConverters.toInt)
-
-    numReplicas = Param(Params._dummy(), "numReplicas", "number of index replicas to create when querying", typeConverter=TypeConverters.toInt)
-
-    excludeSelf = Param(Params._dummy(), "excludeSelf", "whether to include the row identifier as a candidate neighbor",
-                        typeConverter=TypeConverters.toBoolean)
-
-    similarityThreshold = Param(Params._dummy(), "similarityThreshold",
-                                "do not return neighbors further away than this distance",
-                                typeConverter=TypeConverters.toFloat)
-
-    outputFormat = Param(Params._dummy(), "outputFormat", "output format, one of full, minimal",
-                         typeConverter=TypeConverters.toString)
+    queryIdentifierCol = Param(
+        Params._dummy(),
+        "queryIdentifierCol",
+        "the column name for the query identifier",
+        typeConverter=TypeConverters.toString,
+    )
+
+    queryPartitionsCol = Param(
+        Params._dummy(),
+        "queryPartitionsCol",
+        "the column name for the query partitions",
+        typeConverter=TypeConverters.toString,
+    )
+
+    parallelism = Param(
+        Params._dummy(),
+        "parallelism",
+        "number of threads to use",
+        typeConverter=TypeConverters.toInt,
+    )
+
+    k = Param(
+        Params._dummy(),
+        "k",
+        "number of neighbors to find",
+        typeConverter=TypeConverters.toInt,
+    )
+
+    numReplicas = Param(
+        Params._dummy(),
+        "numReplicas",
+        "number of index replicas to create when querying",
+        typeConverter=TypeConverters.toInt,
+    )
+
+    excludeSelf = Param(
+        Params._dummy(),
+        "excludeSelf",
+        "whether to include the row identifier as a candidate neighbor",
+        typeConverter=TypeConverters.toBoolean,
+    )
+
+    similarityThreshold = Param(
+        Params._dummy(),
+        "similarityThreshold",
+        "do not return neighbors further away than this distance",
+        typeConverter=TypeConverters.toFloat,
+    )
+
+    outputFormat = Param(
+        Params._dummy(),
+        "outputFormat",
+        "output format, one of full, minimal",
+        typeConverter=TypeConverters.toString,
+    )
 
     def getQueryIdentifierCol(self):
         """
@@ -106,27 +157,49 @@ def getNumReplicas(self):
         return self.getOrDefault(self.numReplicas)
 
 
+# noinspection PyPep8Naming
 @inherit_doc
 class _KnnParams(_KnnModelParams):
     """
     Params for knn algorithms.
     """
 
-    identifierCol = Param(Params._dummy(), "identifierCol", "the column name for the row identifier",
-                          typeConverter=TypeConverters.toString)
-
-    partitionCol = Param(Params._dummy(), "partitionCol", "the column name for the partition",
-                         typeConverter=TypeConverters.toString)
-
-    initialModelPath = Param(Params._dummy(), "initialModelPath", "path to the initial model",
-                             typeConverter=TypeConverters.toString)
-
-    numPartitions = Param(Params._dummy(), "numPartitions", "number of partitions", typeConverter=TypeConverters.toInt)
-
-    distanceFunction = Param(Params._dummy(), "distanceFunction",
-                             "distance function, one of bray-curtis, canberra, cosine, correlation, " +
-                             "euclidean, inner-product, manhattan or the fully qualified classname " +
-                             "of a distance function", typeConverter=TypeConverters.toString)
+    identifierCol = Param(
+        Params._dummy(),
+        "identifierCol",
+        "the column name for the row identifier",
+        typeConverter=TypeConverters.toString,
+    )
+
+    partitionCol = Param(
+        Params._dummy(),
+        "partitionCol",
+        "the column name for the partition",
+        typeConverter=TypeConverters.toString,
+    )
+
+    initialModelPath = Param(
+        Params._dummy(),
+        "initialModelPath",
+        "path to the initial model",
+        typeConverter=TypeConverters.toString,
+    )
+
+    numPartitions = Param(
+        Params._dummy(),
+        "numPartitions",
+        "number of partitions",
+        typeConverter=TypeConverters.toInt,
+    )
+
+    distanceFunction = Param(
+        Params._dummy(),
+        "distanceFunction",
+        "distance function, one of bray-curtis, canberra, cosine, correlation, "
+        + "euclidean, inner-product, manhattan or the fully qualified classname "
+        + "of a distance function",
+        typeConverter=TypeConverters.toString,
+    )
 
     def getIdentifierCol(self):
         """
@@ -159,14 +232,19 @@ def getDistanceFunction(self):
         return self.getOrDefault(self.distanceFunction)
 
 
+# noinspection PyPep8Naming
 @inherit_doc
 class _HnswModelParams(_KnnModelParams):
     """
     Params for :py:class:`Hnsw` and :py:class:`HnswModel`.
     """
 
-    ef = Param(Params._dummy(), "ef", "size of the dynamic list for the nearest neighbors (used during the search)",
-               typeConverter=TypeConverters.toInt)
+    ef = Param(
+        Params._dummy(),
+        "ef",
+        "size of the dynamic list for the nearest neighbors (used during the search)",
+        typeConverter=TypeConverters.toInt,
+    )
 
     def getEf(self):
         """
@@ -175,18 +253,26 @@ def getEf(self):
         return self.getOrDefault(self.ef)
 
 
+# noinspection PyPep8Naming
 @inherit_doc
 class _HnswParams(_HnswModelParams, _KnnParams):
     """
     Params for :py:class:`Hnsw`.
     """
 
-    m = Param(Params._dummy(), "m", "number of bi-directional links created for every new element during construction",
-              typeConverter=TypeConverters.toInt)
+    m = Param(
+        Params._dummy(),
+        "m",
+        "number of bi-directional links created for every new element during construction",
+        typeConverter=TypeConverters.toInt,
+    )
 
-    efConstruction = Param(Params._dummy(), "efConstruction",
-                           "has the same meaning as ef, but controls the index time / index precision",
-                           typeConverter=TypeConverters.toInt)
+    efConstruction = Param(
+        Params._dummy(),
+        "efConstruction",
+        "has the same meaning as ef, but controls the index time / index precision",
+        typeConverter=TypeConverters.toInt,
+    )
 
     def getM(self):
         """
@@ -201,6 +287,7 @@ def getEfConstruction(self):
         return self.getOrDefault(self.efConstruction)
 
 
+# noinspection PyPep8Naming
 @inherit_doc
 class BruteForceSimilarity(JavaEstimator, _KnnParams, JavaMLReadable, JavaMLWritable):
     """
@@ -208,15 +295,39 @@ class BruteForceSimilarity(JavaEstimator, _KnnParams, JavaMLReadable, JavaMLWrit
     """
 
     @keyword_only
-    def __init__(self, identifierCol="id", partitionCol=None, queryIdentifierCol=None, queryPartitionsCol=None,
-                 parallelism= None, featuresCol="features", predictionCol="prediction", numPartitions=1, numReplicas=0,
-                 k=5, distanceFunction="cosine", excludeSelf=False, similarityThreshold=-1.0, outputFormat="full",
-                 initialModelPath=None):
+    def __init__(
+        self,
+        identifierCol="id",
+        partitionCol=None,
+        queryIdentifierCol=None,
+        queryPartitionsCol=None,
+        parallelism=None,
+        featuresCol="features",
+        predictionCol="prediction",
+        numPartitions=1,
+        numReplicas=0,
+        k=5,
+        distanceFunction="cosine",
+        excludeSelf=False,
+        similarityThreshold=-1.0,
+        outputFormat="full",
+        initialModelPath=None,
+    ):
         super(BruteForceSimilarity, self).__init__()
-        self._java_obj = self._new_java_obj("com.github.jelmerk.spark.knn.bruteforce.BruteForceSimilarity", self.uid)
-
-        self._setDefault(identifierCol="id", numPartitions=1, numReplicas=0, k=5, distanceFunction="cosine",
-                         excludeSelf=False, similarityThreshold=-1.0, outputFormat="full")
+        self._java_obj = self._new_java_obj(
+            "com.github.jelmerk.spark.knn.bruteforce.BruteForceSimilarity", self.uid
+        )
+
+        self._setDefault(
+            identifierCol="id",
+            numPartitions=1,
+            numReplicas=0,
+            k=5,
+            distanceFunction="cosine",
+            excludeSelf=False,
+            similarityThreshold=-1.0,
+            outputFormat="full",
+        )
 
         kwargs = self._input_kwargs
         self.setParams(**kwargs)
@@ -300,10 +411,23 @@ def setInitialModelPath(self, value):
         return self._set(initialModelPath=value)
 
     @keyword_only
-    def setParams(self, identifierCol="id", queryIdentifierCol=None, queryPartitionsCol=None, parallelism=None,
-                  featuresCol="features", predictionCol="prediction",numPartitions=1, numReplicas=0, k=5,
-                  distanceFunction="cosine", excludeSelf=False, similarityThreshold=-1.0, outputFormat="full",
-                  initialModelPath=None):
+    def setParams(
+        self,
+        identifierCol="id",
+        queryIdentifierCol=None,
+        queryPartitionsCol=None,
+        parallelism=None,
+        featuresCol="features",
+        predictionCol="prediction",
+        numPartitions=1,
+        numReplicas=0,
+        k=5,
+        distanceFunction="cosine",
+        excludeSelf=False,
+        similarityThreshold=-1.0,
+        outputFormat="full",
+        initialModelPath=None,
+    ):
         kwargs = self._input_kwargs
         return self._set(**kwargs)
 
@@ -311,12 +435,17 @@ def _create_model(self, java_model):
         return BruteForceSimilarityModel(java_model)
 
 
-class BruteForceSimilarityModel(JavaModel, _KnnModelParams, JavaMLReadable, JavaMLWritable):
+# noinspection PyPep8Naming
+class BruteForceSimilarityModel(
+    JavaModel, _KnnModelParams, JavaMLReadable, JavaMLWritable
+):
     """
     Model fitted by BruteForce.
     """
 
-    _classpath_model = 'com.github.jelmerk.spark.knn.bruteforce.BruteForceSimilarityModel'
+    _classpath_model = (
+        "com.github.jelmerk.spark.knn.bruteforce.BruteForceSimilarityModel"
+    )
 
     def setQueryIdentifierCol(self, value):
         """
@@ -371,6 +500,7 @@ def read(cls):
         return HnswLibMLReader(cls, cls._classpath_model)
 
 
+# noinspection PyPep8Naming
 @inherit_doc
 class HnswSimilarity(JavaEstimator, _HnswParams, JavaMLReadable, JavaMLWritable):
     """
@@ -378,16 +508,45 @@ class HnswSimilarity(JavaEstimator, _HnswParams, JavaMLReadable, JavaMLWritable)
     """
 
     @keyword_only
-    def __init__(self, identifierCol="id", queryIdentifierCol=None, queryPartitionsCol=None, parallelism=None,
-                 featuresCol="features", predictionCol="prediction", m=16, ef=10, efConstruction=200, numPartitions=1,
-                 numReplicas=0, k=5, distanceFunction="cosine", excludeSelf=False, similarityThreshold=-1.0,
-                 outputFormat="full", initialModelPath=None):
+    def __init__(
+        self,
+        identifierCol="id",
+        queryIdentifierCol=None,
+        queryPartitionsCol=None,
+        parallelism=None,
+        featuresCol="features",
+        predictionCol="prediction",
+        m=16,
+        ef=10,
+        efConstruction=200,
+        numPartitions=1,
+        numReplicas=0,
+        k=5,
+        distanceFunction="cosine",
+        excludeSelf=False,
+        similarityThreshold=-1.0,
+        outputFormat="full",
+        initialModelPath=None,
+    ):
         super(HnswSimilarity, self).__init__()
-        self._java_obj = self._new_java_obj("com.github.jelmerk.spark.knn.hnsw.HnswSimilarity", self.uid)
-
-        self._setDefault(identifierCol="id", m=16, ef=10, efConstruction=200, numPartitions=1, numReplicas=0, k=5,
-                         distanceFunction="cosine", excludeSelf=False, similarityThreshold=-1.0, outputFormat="full",
-                         initialModelPath=None)
+        self._java_obj = self._new_java_obj(
+            "com.github.jelmerk.spark.knn.hnsw.HnswSimilarity", self.uid
+        )
+
+        self._setDefault(
+            identifierCol="id",
+            m=16,
+            ef=10,
+            efConstruction=200,
+            numPartitions=1,
+            numReplicas=0,
+            k=5,
+            distanceFunction="cosine",
+            excludeSelf=False,
+            similarityThreshold=-1.0,
+            outputFormat="full",
+            initialModelPath=None,
+        )
 
         kwargs = self._input_kwargs
         self.setParams(**kwargs)
@@ -489,10 +648,26 @@ def setInitialModelPath(self, value):
         return self._set(initialModelPath=value)
 
     @keyword_only
-    def setParams(self, identifierCol="id", queryIdentifierCol=None, queryPartitionsCol=None, parallelism=None,
-                  featuresCol="features", predictionCol="prediction", m=16, ef=10, efConstruction=200, numPartitions=1,
-                  numReplicas=0, k=5, distanceFunction="cosine", excludeSelf=False, similarityThreshold=-1.0,
-                  outputFormat="full", initialModelPath=None):
+    def setParams(
+        self,
+        identifierCol="id",
+        queryIdentifierCol=None,
+        queryPartitionsCol=None,
+        parallelism=None,
+        featuresCol="features",
+        predictionCol="prediction",
+        m=16,
+        ef=10,
+        efConstruction=200,
+        numPartitions=1,
+        numReplicas=0,
+        k=5,
+        distanceFunction="cosine",
+        excludeSelf=False,
+        similarityThreshold=-1.0,
+        outputFormat="full",
+        initialModelPath=None,
+    ):
         kwargs = self._input_kwargs
         return self._set(**kwargs)
 
@@ -500,12 +675,13 @@ def _create_model(self, java_model):
         return HnswSimilarityModel(java_model)
 
 
+# noinspection PyPep8Naming
 class HnswSimilarityModel(JavaModel, _HnswModelParams, JavaMLReadable, JavaMLWritable):
     """
     Model fitted by Hnsw.
     """
 
-    _classpath_model = 'com.github.jelmerk.spark.knn.hnsw.HnswSimilarityModel'
+    _classpath_model = "com.github.jelmerk.spark.knn.hnsw.HnswSimilarityModel"
 
     def setQueryIdentifierCol(self, value):
         """
@@ -567,4 +743,4 @@ def read(cls):
 
 
 HnswSimilarityModelImpl = HnswSimilarityModel
-BruteForceSimilarityModelImpl = BruteForceSimilarityModel
\ No newline at end of file
+BruteForceSimilarityModelImpl = BruteForceSimilarityModel
diff --git a/hnswlib-spark/src/main/python/pyspark_hnsw/linalg.py b/hnswlib-spark/src/main/python/pyspark_hnsw/linalg.py
index 2c7b9501..3951d0b3 100644
--- a/hnswlib-spark/src/main/python/pyspark_hnsw/linalg.py
+++ b/hnswlib-spark/src/main/python/pyspark_hnsw/linalg.py
@@ -2,12 +2,18 @@
 from pyspark.ml.wrapper import JavaTransformer
 from pyspark.ml.util import JavaMLReadable, JavaMLWritable
 from pyspark.mllib.common import inherit_doc
+
+# noinspection PyProtectedMember
 from pyspark import keyword_only
 
-__all__ = ['Normalizer']
+__all__ = ["Normalizer"]
+
 
+# noinspection PyPep8Naming
 @inherit_doc
-class Normalizer(JavaTransformer, HasInputCol, HasOutputCol, JavaMLReadable, JavaMLWritable):
+class Normalizer(
+    JavaTransformer, HasInputCol, HasOutputCol, JavaMLReadable, JavaMLWritable
+):
     """
     Normalizes vectors to unit norm
     """
@@ -18,7 +24,9 @@ def __init__(self, inputCol="input", outputCol="output"):
         __init__(self, inputCol="input", outputCol="output")
         """
         super(Normalizer, self).__init__()
-        self._java_obj = self._new_java_obj("com.github.jelmerk.spark.linalg.Normalizer", self.uid)
+        self._java_obj = self._new_java_obj(
+            "com.github.jelmerk.spark.linalg.Normalizer", self.uid
+        )
         kwargs = self._input_kwargs
         self.setParams(**kwargs)
 
diff --git a/hnswlib-spark/src/test/python/conftest.py b/hnswlib-spark/src/test/python/conftest.py
index 7dd0cf6e..94fe6bde 100644
--- a/hnswlib-spark/src/test/python/conftest.py
+++ b/hnswlib-spark/src/test/python/conftest.py
@@ -8,6 +8,10 @@
 
 @pytest.fixture(scope="session", autouse=True)
 def spark(request):
+    # unset SPARK_HOME or it will use whatever is configured on the host system instead of the pip packages
+    if "SPARK_HOME" in os.environ:
+        del os.environ['SPARK_HOME']
+
     sc = SparkSession.builder \
         .config("spark.driver.extraClassPath", os.environ["ARTIFACT_PATH"]) \
         .master("local[*]") \