Question

Для простоты и в псевдокоде, если я делаю myDF = spark.read.option('inferSchema', True).json(someFiles), а затем делаю myDF.count(), читает ли спарк данные с диска дважды?

user11048135 · Answer 1 · 12 февраля 2019

Если DAG содержит только узкие преобразования, Spark будет читать данные по каждому действию.
Фактически в вашем случае он будет считывать данные два раза, хотя существует только одно действие - Почему SparkSessionвыполнить дважды за одно действие?
Если DAG содержит широкие преобразования, Spark может в некоторых случаях повторно использовать случайные файлы - Что означает «Пропущенный этап» в веб-интерфейсе Apache Spark? - чтооднако здесь не произойдет.

Без сохранения или кэширования Spark считывает данные с диска при каждом действии?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Без сохранения или кэширования Spark считывает данные с диска при каждом действии?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов