Пользовательский интерфейс Spark сообщает «Spilled to Memory», а в журналах исполнителя - «Spilled to Disk». Что это? - PullRequest
0 голосов
/ 25 октября 2019

При выполнении задания Spark для некоторых довольно больших данных (~ 3 ТБ) пользовательский интерфейс Spark показывает, что огромное количество данных выливается в память без данных на диск:

Spark UI Spill памяти

Однако, когда я просматриваю отдельные журналы исполнителя, оказывается, что данные на самом деле проливаются на диск:

19/10/2514:36:06 Исполнитель запуска задачи исполнителя для задачи 41 ИНФОРМАЦИЯ UnsafeExternalSorter: поток 215 выкладывает данные сортировки объемом 3,0 ГБ на диск (пока 46 раз)

Может кто-нибудь помочь мне понять, что здесь происходит? Моя работа на самом деле распространяется на диск или в память?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...