У меня есть задача pyspark на zeppelin, которая читает некоторые файлы паркета и выполняет некоторые reduce
и filter
для него.Я получил следующую ошибку в середине задачи в zeppelin (при применении reduce
):
from operator import add
result = data_rdd.filter(lambda log: log['test'] == "test" and (log['index'] is not None))
.map(lambda log: (int(log['index']),1)).reduceByKey(add).collect()
Задание прервано из-за сбоя этапа: сбой задачи 4235 на этапе 66.0 4самый последний сбой: потерянная задача 4235.3 на этапе 66.0 (TID 9583, исполнитель 2): com.amazonaws.AmazonClientException: невозможно отменить ответ об ошибке (тип элемента "hr" должен быть завершен соответствующим конечным тегом "".).Код ответа: 502, Текст ответа: Bad Gateway
Хотя я не получил ошибку снова, мой вопрос: кто-нибудь знает, что здесь произошло?
Я должен заметить, что Cephне в это время!