Я строю модель, которая выполняет вычисление ближайшего соседа, и запрашиваю индекс, чтобы найти 100 ближайших соседей, используя пакет Python NNDescent, и вычисляю среднее значение цели в пределах 100 ближайших соседей на этапе обучения для каждой строкитренировка
В фазе оценки для нового набора данных листьев (около 100 ММ строк) я хочу запросить индекс, созданный в тренинге, чтобы найти 100 ближайших соседей и вычислить среднее значение цели в пределах 100 ближайшихсоседи в наборе данных обучения.
Я хочу распараллелить скоринговую часть запросов и вычисления средних значений в Pyspark. Как это можно сделать в pyspark
# let us use neighborhoods to estimate treatment effects in the neighborhood
index = NNDescent(leaves, metric='hamming')
# querying 100 nearest neighbors
nearest_neighs = index.query(leaves, k=100)