Как ускорить процесс jaro-winkler в python (многопоточность? Pyspark?) - PullRequest
0 голосов
/ 11 ноября 2018

Я использую jaro-winkler для оценки сходства текста в python 3. Мой сравнительный набор относительно большой (> 470 000 строк). Поэтому каждый раз в цикле нужно вычислять оценку для каждой строки с этими 470 000 элементов, что делало мой процесс очень медленным.

Есть ли способ ускорить процесс? Я думаю использовать многопоточность, многопроцессорность или pyspark. Но я не уверен, как это сделать. Какие-либо предложения? Заранее спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...