Искра длительная работа - PullRequest
0 голосов
/ 18 июня 2020

Я просто жду подсказки по поводу следующей проблемы. Речь идет об использовании искры для расчета ближайших соседей для рекомендаций на основе контента. Для этой цели, наряду с пакетом spark.ml, мы также используем стороннюю библиотеку karlhigley.

Все это работает в большом кластере с достаточным объемом памяти для каждого исполнителя / драйвера, ядер и т.д. Таким образом, ресурс не является проблемой.

Но проблема, которая у нас есть, связана с данными, используемыми в этом расчете. У нас есть один набор данных (например, файл размером 200 МБ, Word2Ve c отчеты VocabSize = 21140, trainWordsCount = 4347135. Он завершает создание sh рекомендаций за 5 минут. С другой стороны, у меня есть другой набор данных размером примерно 20 МБ, с сообщил VocabSize = 3926, trainWordsCount = 698892, который бесконечен!

CSV-файл, содержащий данные для этой цели, содержит три столбца, примерно с 300 тыс. строк, где даже только один столбец, используемый для соседей, содержит значение, которое представляет собой одно слово (два других содержат пробел в качестве значения).

Таким образом, это длится 20 часов, а затем я убиваю его.

Чтобы не go в деталях , что потенциально может привести к тому, что первый (в 10 раз больший объем данных) закончится sh в течение 5 минут, а второй будет длиться 20 часов и на самом деле никогда не закончится ...

Я просто не может понять, в чем проблема (это, очевидно, зависит от набора данных), но не может понять, почему гораздо больший набор данных завершается sh вычисление в течение 5 минут и в 10 раз меньше canno t обрабатывать до конца.

Любой НАМЕК был бы очень признателен ... Спасибо

...