почему «TaskSetManager: Stage содержит задачу очень большого размера» не всегда отображается последовательно - PullRequest
0 голосов
/ 29 сентября 2019

Я читаю файл в RDD из HDFS с несколькими тысячами разделов, каждый размером 256 МБ.

Когда я выполняю rdd.count, получаю счет без предупреждающего сообщения выше

«задача очень большого размера», хотя размер задачи (размер раздела) больше 100 КБ.

Я выполнил фильтрацию над вышеупомянутым СДР и применил coalesce (1), на этот раз фильтрованный СДР содержит только4 МБ данных с одним разделом.Когда я выполняю подсчет на этом отфильтрованном СДР, я получаю приведенное выше предупреждающее сообщение

«Максимальный рекомендуемый размер задачи - 100 КБ».

Кроме того, когда я выполняюотфильтруйте исходный RDD и примените разделение (1), на этот раз, хотя отфильтрованный RDD содержит более 100 КБ, как указано выше, счетчик отображается без предупреждающего сообщения.

Вопрос, который у меня возникает, - почему вышеупомянутое предупреждающее сообщение не отображаетсяво всех вышеперечисленных сценариях, даже если размер задачи (раздела) превышает 100 КБ?

...