AWS Задание склеивания периодически завершается ошибкой при использовании cache ()? Возможно из-за ошибки OOM? - PullRequest
0 голосов
/ 05 августа 2020

Я пишу задание склеивания AWS с использованием pyspark и получаю следующую прерывистую ошибку во время обработки Py4JJavaError: An error occurred while calling o42246.cache. java.lang.StackOverflowError

Сам сценарий довольно сложен с множеством преобразований и объединений для относительно небольших ~ 10-100 МБ xml файлов. Я начал использовать кеширование многократно используемых фреймов данных, так как обнаружил, что это значительно сокращает время выполнения каждого задания склеивания. Кроме того, эти ошибки иногда разрешаются после повторного запуска задания.

Судя по поиску похожих проблем, похоже, что это может быть не из-за моего использования cache(), а из-за ошибок OOM? Я наткнулся на несколько статей, в которых упоминается перекос данных как проблема, но я не совсем понимаю asp, как это исправить?

Сталкивался ли кто-нибудь с подобной ошибкой и как это исправить?

...