Я соединяю 2 набора данных, один с 6 миллионами, а другой - с 11 миллионами записей, используя метод Apache Spark ML LSH приблизительно.
Я пробовал с произвольными разделами 500 - 2000, последние 2 задачи застряли навсегда.Исполнителям по 50 исполнителей, памяти по 50 ГБ
Что еще можно сделать?