Я использую jaro-winkler для оценки сходства текста в python 3. Мой сравнительный набор относительно большой (> 470 000 строк). Поэтому каждый раз в цикле нужно вычислять оценку для каждой строки с этими 470 000 элементов, что делало мой процесс очень медленным.
Есть ли способ ускорить процесс? Я думаю использовать многопоточность, многопроцессорность или pyspark. Но я не уверен, как это сделать. Какие-либо предложения? Заранее спасибо.