NNDescent в pyspark - PullRequest
       10

NNDescent в pyspark

0 голосов
/ 04 ноября 2019

Я строю модель, которая выполняет вычисление ближайшего соседа, и запрашиваю индекс, чтобы найти 100 ближайших соседей, используя пакет Python NNDescent, и вычисляю среднее значение цели в пределах 100 ближайших соседей на этапе обучения для каждой строкитренировка

В фазе оценки для нового набора данных листьев (около 100 ММ строк) я хочу запросить индекс, созданный в тренинге, чтобы найти 100 ближайших соседей и вычислить среднее значение цели в пределах 100 ближайшихсоседи в наборе данных обучения.

Я хочу распараллелить скоринговую часть запросов и вычисления средних значений в Pyspark. Как это можно сделать в pyspark

# let us use neighborhoods to estimate treatment effects in the neighborhood

index = NNDescent(leaves, metric='hamming')

# querying 100 nearest neighbors

nearest_neighs = index.query(leaves, k=100)
...