Question

При выполнении задания Spark для некоторых довольно больших данных (~ 3 ТБ) пользовательский интерфейс Spark показывает, что огромное количество данных выливается в память без данных на диск:

Spark UI Spill памяти

Однако, когда я просматриваю отдельные журналы исполнителя, оказывается, что данные на самом деле проливаются на диск:

19/10/2514:36:06 Исполнитель запуска задачи исполнителя для задачи 41 ИНФОРМАЦИЯ UnsafeExternalSorter: поток 215 выкладывает данные сортировки объемом 3,0 ГБ на диск (пока 46 раз)

Может кто-нибудь помочь мне понять, что здесь происходит? Моя работа на самом деле распространяется на диск или в память?

Пользовательский интерфейс Spark сообщает «Spilled to Memory», а в журналах исполнителя - «Spilled to Disk». Что это?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Пользовательский интерфейс Spark сообщает «Spilled to Memory», а в журналах исполнителя - «Spilled to Disk». Что это?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов