Когда я запускаю два одинаковых запроса в Spark SQL в локальном режиме. Запрос второго запуска всегда выполняется быстрее (я полагаю, это может привести к локальности кэша).
Но когда я смотрю в Spark UI, я обнаруживаю, что два одинаковых запроса имеют разное количество заданий, и эта часть меня смущает, например, как показано ниже.
Как вы могли видетьдля второго требуется только одно задание (20), поэтому эта информация подразумевает, что Spark SQL кеширует результат запроса в явном виде? Или он кеширует промежуточный результат некоторых заданий предыдущего запуска?
Спасибо за объяснение.
collect at <console>:26+details 2019/10/09 08:28:34 2 s [20]<br>
collect at <console>:26+details 2019/10/09 08:26:01 2.3 min [16][17][18][19]