проблема производительности Spark LSH MinHash приблизительноСходствоJoin - PullRequest
0 голосов
/ 29 сентября 2019

Я соединяю 2 набора данных, один с 6 миллионами, а другой - с 11 миллионами записей, используя метод Apache Spark ML LSH приблизительно.

Я пробовал с произвольными разделами 500 - 2000, последние 2 задачи застряли навсегда.Исполнителям по 50 исполнителей, памяти по 50 ГБ

Что еще можно сделать?

...