При выполнении задания Spark для некоторых довольно больших данных (~ 3 ТБ) пользовательский интерфейс Spark показывает, что огромное количество данных выливается в память без данных на диск:
Spark UI Spill памяти
Однако, когда я просматриваю отдельные журналы исполнителя, оказывается, что данные на самом деле проливаются на диск:
19/10/2514:36:06 Исполнитель запуска задачи исполнителя для задачи 41 ИНФОРМАЦИЯ UnsafeExternalSorter: поток 215 выкладывает данные сортировки объемом 3,0 ГБ на диск (пока 46 раз)
Может кто-нибудь помочь мне понять, что здесь происходит? Моя работа на самом деле распространяется на диск или в память?