Как я могу получить матрицу ближайшего соседа из 1 000 000 строк и 20 000 объектов? - PullRequest
0 голосов
/ 22 декабря 2018

У меня серьезные проблемы.Я хочу вычислить отношение десяти миллионов записей, но обработка останавливается, потому что памяти Спарка недостаточно.Десять миллионов документов созданы TF - Hashing для создания 20000-мерных объектов.Прежде всего я попробовал «Приблизительное сходство сходства», но расчет не сходился.Затем я попытался попробовать KNN scikit-learn, но когда я перенес все данные в Driver, память переполнилась.Нет ли другого способа сделать это?

1 Ответ

0 голосов
/ 22 декабря 2018

Ближайший сосед, похоже, не является частью MLLib Spark.Варианты, о которых я думаю, это найти реализацию распределенной искры или найти реализацию тензорного потока

Находятся ли в Databricks?Последние версии поддерживают распределенный Tensorflow.Я запустил большие тома, чем у вас, в одном узле кластера Densricks Tensorflow.

быстрый поиск обнаружил эти * тензор потока ближайшего соседа * искра ближайшего соседа

Обратите внимание, что я сам не пробовал.

...