Question

Когда у меня есть много столбцов в DataFrame Spark, но используются только некоторые из них, достаточно ли Spark для того, чтобы никогда не загружать в память неиспользуемые столбцы?

Raphael Roth · Answer 1 · 18 сентября 2018

В большинстве случаев оптимизатор spark должен быть достаточно умным, чтобы загружать только необходимые столбцы ( проекция с уменьшением ).Это особенно полезно для столбчатых форматов файлов, таких как паркет, это означает, что нужно читать не весь файл (ы).

Но я думаю, что в некоторых случаях все же лучше сделать явное выражение selectЯ думаю, я видел случаи, когда нажатие на проекцию не работало достаточно хорошо, в основном в очень сложных запросах.

Чтобы быть уверенным, используйте искры df.explain

Когда столбец никогда не используется в действии в spark sql, загружается ли он когда-либо в память?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Когда столбец никогда не используется в действии в spark sql, загружается ли он когда-либо в память?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов