Проблема с Flink State при размещении работы в производственной инфраструктуре - PullRequest
0 голосов
/ 21 июня 2020

мы используем Flink в настраиваемой системе защиты от мошенничества, которая использует очень большое состояние.

Мы читали о бэкэнде RocksDB и его функциях с такими задачами, как наша, поэтому мы реализовали его на нашей работе. Когда мы начали проводить тесты на кластере, мы заметили редкое поведение, память диспетчера задач через некоторое время начинает деградировать, как вы можете видеть на этом графикеi c:

enter image description here

and ultimately it throws an exception like this.

java.util.concurrent.TimeoutException: Heartbeat of TaskManager with id timed out.

Also, we saw that the checkpoints times start incrementing for the same amount of bytes on state (800 MB and 4.4MB both last 8 minutes when at the star 4MB last milliseconds)

введите описание изображения здесь

Надеюсь, вы сможете указать нам правильное направление с помощью следующих вопросов:

  1. мы видели в документации Flink, что если вы используете серверную часть состояния Rocks DB, состояние не сохраняется в памяти и перетекает на диск, в нашем случае это ведро s3, поэтому оно хорошо подходит для больших государственных заданий, таких как наше, это хорошее понимание?

  2. Память ухудшается на узлы диспетчера задач могут быть вызваны тем, что состояние становится слишком большим и заканчивается уничтожением узла, поэтому возникает исключение тайм-аута?

Заранее благодарим за любой совет.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...