Когда столбец никогда не используется в действии в spark sql, загружается ли он когда-либо в память? - PullRequest
0 голосов
/ 18 сентября 2018

Когда у меня есть много столбцов в DataFrame Spark, но используются только некоторые из них, достаточно ли Spark для того, чтобы никогда не загружать в память неиспользуемые столбцы?

1 Ответ

0 голосов
/ 18 сентября 2018

В большинстве случаев оптимизатор spark должен быть достаточно умным, чтобы загружать только необходимые столбцы ( проекция с уменьшением ).Это особенно полезно для столбчатых форматов файлов, таких как паркет, это означает, что нужно читать не весь файл (ы).

Но я думаю, что в некоторых случаях все же лучше сделать явное выражение selectЯ думаю, я видел случаи, когда нажатие на проекцию не работало достаточно хорошо, в основном в очень сложных запросах.

Чтобы быть уверенным, используйте искры df.explain

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...