Реализация роста Pyspark FP работает медленно - PullRequest
0 голосов
/ 09 февраля 2020

Я использую реализацию pyspark.ml.fpm (FP Growth) для майнинга правил ассоциации в Spark v2.3.

Пользовательский интерфейс spark показывает, что задачи в конце выполняются очень медленно. Это кажется распространенной проблемой и может быть связано с перекосом данных.

Это настоящая причина? Есть ли какое-то решение для этого?

Я не хочу менять пороги minSupport или minConfidence, потому что это повлияет на результаты. Удаление столбцов также не является решением.

1 Ответ

0 голосов
/ 18 февраля 2020

Я столкнулся с подобной проблемой. Одним из решений, которое вы можете попробовать, является установка порогового значения для количества продуктов в транзакции. Если в паре транзакций продуктов больше, чем в среднем, дерево, вычисленное с помощью FP Growth, взрывается. Это приводит к значительному увеличению времени выполнения и значительно увеличивает риск ошибок памяти.

Следовательно, удаление выбросов из транзакций с непропорциональным количеством продуктов может помочь.

Надеюсь, это немного вам поможет:)

...