Два термина о Флинк - PullRequest
1 голос
/ 28 июня 2019

Может ли кто-нибудь помочь проверить условия для следующих предметов?

  • Продолжительность между временем события и временем приема для события.Я создал термин «время в очереди».
  • Продолжительность между текущей отметкой времени и временем последнего события в текущем окне.Я сделал термин, который называется «простой».

Являются ли условия, которые я сделал, правильными?Ваше предложение высоко ценится.

В настоящее время я занимаюсь написанием документации по Flink.

1 Ответ

1 голос
/ 28 июня 2019

Я думаю, что в некоторых случаях эти термины хорошо работают, но в целом у меня есть некоторые оговорки. Например, рассмотрим пакетную обработку или (повторное) использование исторических данных в потоковом приложении. Означает ли «время в очереди» значительную продолжительность времени между моментом события и приемом внутрь этой ситуации? Может быть, а может и нет. Или рассмотрите ситуацию, когда начинаете восстанавливаться после сбоя: в этот момент разница между текущей отметкой времени и последним событием в окне не связана с неактивным источником, а связана с простоем.

В первом случае кажется, что вы заинтересованы в описании и измерении различных источников задержки. В этом контексте я думаю, что имеет смысл различать задержка публикации (время между созданием события и сохранением события в очереди), задержка приема (время между публикация в брокере сообщений и последующая загрузка во Flink) и задержка обработки , то есть время, которое требуется Flink для обработки события. Задержки обработки вызваны водяными знаками, сериализацией, сетевой буферизацией, выравниванием контрольных точек, двухфазными фиксациями и т. Д.

Я не совсем ясно о намерении, стоящем за временем простоя , но, возможно, это можно определить как время, прошедшее с источника flink с момента последнего события, или относительно любого конкретного экземпляра оператора, время с момента последнего получения события.

...