Spark SQL кеширует результат для того же выполнения запроса - PullRequest
1 голос
/ 09 октября 2019

Когда я запускаю два одинаковых запроса в Spark SQL в локальном режиме. Запрос второго запуска всегда выполняется быстрее (я полагаю, это может привести к локальности кэша).

Но когда я смотрю в Spark UI, я обнаруживаю, что два одинаковых запроса имеют разное количество заданий, и эта часть меня смущает, например, как показано ниже.

Как вы могли видетьдля второго требуется только одно задание (20), поэтому эта информация подразумевает, что Spark SQL кеширует результат запроса в явном виде? Или он кеширует промежуточный результат некоторых заданий предыдущего запуска?

Спасибо за объяснение.

collect at <console>:26+details 2019/10/09 08:28:34 2 s [20]<br> collect at <console>:26+details 2019/10/09 08:26:01 2.3 min [16][17][18][19]

...