Я читаю файл в RDD из HDFS с несколькими тысячами разделов, каждый размером 256 МБ.
Когда я выполняю rdd.count, получаю счет без предупреждающего сообщения выше
«задача очень большого размера», хотя размер задачи (размер раздела) больше 100 КБ.
Я выполнил фильтрацию над вышеупомянутым СДР и применил coalesce (1), на этот раз фильтрованный СДР содержит только4 МБ данных с одним разделом.Когда я выполняю подсчет на этом отфильтрованном СДР, я получаю приведенное выше предупреждающее сообщение
«Максимальный рекомендуемый размер задачи - 100 КБ».
Кроме того, когда я выполняюотфильтруйте исходный RDD и примените разделение (1), на этот раз, хотя отфильтрованный RDD содержит более 100 КБ, как указано выше, счетчик отображается без предупреждающего сообщения.
Вопрос, который у меня возникает, - почему вышеупомянутое предупреждающее сообщение не отображаетсяво всех вышеперечисленных сценариях, даже если размер задачи (раздела) превышает 100 КБ?