Spark структурированный поток на K8S - PullRequest
1 голос
/ 08 июля 2019

Мы запускаем процесс структурированной потоковой передачи с использованием spark 2.4.3, который считывает данные из kafka, преобразует данные (выравнивает и создает некоторые столбцы, используя udf), после чего данные записываются обратно в kafka в другую тему. поток обрабатывает время каждые две минуты. Через 10-12 часов мы заметили, что наши модули перестали работать из-за высокого потребления памяти. Как я объяснил выше, у нас нет агрегации и мы не используем постоянство в наборе данных. Мы заметили, что куча памяти постоянно растет. есть идеи?

1 Ответ

1 голос
/ 08 июля 2019

Мы нашли решение проблемы, это заняло некоторое время, по-видимому, искра содержит объекты, используемые для пользовательского интерфейса, и эта коллекция постоянно росла, хотя мы настроили спарк для работы с spark.ui.enabled: false.решение было ограничить его, используя конфигурацию parma spark.sql.ui.retainedExecutions. spark sql ui data Мы легко воспроизвели проблему с памятью, поскольку в нашем наборе данных около 300 столбцов, поэтому данные, сохраненные в пользовательском интерфейсе, были очень большими.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...