pyspark udf на больших данных - PullRequest
0 голосов
/ 07 мая 2018

У меня есть искровой фрейм данных с 10 миллионами строк и только 3 столбцами. Один из столбцов - это MapType (), содержащий карту даты, значения. Таким образом, этот столбец содержит данные временных рядов, а каждая строка содержит временные ряды. Следовательно, у меня есть 10 миллионов временных рядов в этом фрейме данных.

У меня есть собственный код / ​​функция, написанная на Python для обнаружения скачка в данных временных рядов, и я использую pyspark udf, чтобы использовать эту функцию для обнаружения скачков в каждом временном ряду в кадре данных. Кроме того, моя функция обнаружения всплесков заключается в том, что объект MapType () конвертируется в фрейм данных панд, а я использую панды средние и стандартные. отклонение для обнаружения пика.

pyspark udf стоит дорого. Это займет около 90 минут для 10 миллионов строк.

У нас есть другая альтернатива? Если udf - единственный выбор, как мы можем улучшить производительность? Обратите внимание, что я не могу использовать spark2.3 / pandas_udf, и я ограничен spark2.2.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...