Зомб ie гигантские неубиваемые блоки задач Друид при перезапуске - PullRequest
1 голос
/ 10 февраля 2020

Я бегу Apache Друид 0.17 развертывается с nohup ./bin/start-nano-quickstart > mylog.log. В качестве глубокого хранилища я использую s3, и у меня включено расширение parquet, и все работает нормально. Я мог бы правильно использовать несколько маленьких разделенных искрой паркетных источников данных от s3. Все остальные конфигурации остаются нетронутыми.

Когда я пытался загрузить гигантский источник данных для проверки производительности и использования ресурсов, задача умерла через пару часов из-за OutOfMemory. (Ожидалось)

2020-02-07T17:32:20,519 INFO [task-runner-0-priority-0] org.apache.druid.segment.realtime.appenderator.BaseAppenderatorDriver - New segment[arc_2016-09-29T12:00:00.000Z_2016-09-29T13:00:00.000Z_2020-02-07T17:22:45.965Z] for sequenceName[index_parallel_arc_chgindko_2020-02-07T14:59:32.337Z].
Terminating due to java.lang.OutOfMemoryError: GC overhead limit exceeded

Теперь каждый раз, когда я перезапускаю Друида, он запускает эту гигантскую задачу, и убить ее невозможно. Даже когда задача явно умирает или превращается в состояние ожидания, загрузка процессора составляет около 140%, и я не могу отправить новые задачи в Druid. Я попытался получить доступ к базе данных Derby вручную, чтобы найти задачу и удалить ее, но мне это не удалось, и это решение действительно неприятно. Я знаю, что могу изменить базу данных в конфигурации, так что в следующий раз у меня будет fre sh Druid, но это не очень хорошее решение, так как я пропущу все другие источники данных. Как мне подготовиться к этой длительной задаче зомба ie?

...