Question

Я строю модель, которая выполняет вычисление ближайшего соседа, и запрашиваю индекс, чтобы найти 100 ближайших соседей, используя пакет Python NNDescent, и вычисляю среднее значение цели в пределах 100 ближайших соседей на этапе обучения для каждой строкитренировка

В фазе оценки для нового набора данных листьев (около 100 ММ строк) я хочу запросить индекс, созданный в тренинге, чтобы найти 100 ближайших соседей и вычислить среднее значение цели в пределах 100 ближайшихсоседи в наборе данных обучения.

Я хочу распараллелить скоринговую часть запросов и вычисления средних значений в Pyspark. Как это можно сделать в pyspark

# let us use neighborhoods to estimate treatment effects in the neighborhood

index = NNDescent(leaves, metric='hamming')

# querying 100 nearest neighbors

nearest_neighs = index.query(leaves, k=100)

NNDescent в pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

NNDescent в pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы