Войти

Запомнить

Регистрация

Лента
Топ
Теги
Новая

vishal 29 сентября 2019 71

проблема производительности Spark LSH MinHash приблизительноСходствоJoin

0 голосов

vishal / 29 сентября 2019

Я соединяю 2 набора данных, один с 6 миллионами, а другой - с 11 миллионами записей, используя метод Apache Spark ML LSH приблизительно.

Я пробовал с произвольными разделами 500 - 2000, последние 2 задачи застряли навсегда.Исполнителям по 50 исполнителей, памяти по 50 ГБ

Что еще можно сделать?

апаш-искра
апаш-искровой mllib
LSH

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.

Похожие темы

Увеличение хеш-таблиц в MinHashLSH, снижение точности и f1
Java Spark: создание ключевого вектора для aprroxNearestNeighbor в случае категориальных данных
Ошибка «Нет свободного места на устройстве» и сигнал SIGTERM при использовании Spark LSH в EMR
LSH: решить точный поиск ближнего соседа?
Может ли локально-чувствительное хеширование применяться к точкам динамических данных?
Как оценить minHashLSH в Spark со скалой?
Функция, возвращающая ту же переменную, разделенную запятой
Как уменьшить случайную запись, вызванную приближениями в искре?
Можно ли сохранить объект пользовательского класса в Spark Data Frame как значение столбца?
LSH - двоичное матричное представление от черепицы

...