Скажем, я хотел бы собрать информацию о формате json с URL, который обновляется sh каждые 2 минуты. Мне нужно запускать свой конвейер (записанный в Python) непрерывно каждые 2 минуты, чтобы захватывать их без каких-либо пропущенных данных. В этом случае конвейер обрабатывается в реальном времени.
В настоящее время я использую Jenkins для запуска конвейера каждые 2 минуты, но я не думаю, что это правильная практика, и Jenkins предназначен для конвейеров CI / CD. Я сомневаюсь, что мой - это конвейер CI / CD. Несмотря на то, что я знал, что есть плагин для конвейера Jenkins, я все еще думаю, что использование этого плагина концептуально некорректно.
Итак, какие инструменты обработки данных лучше всего подходят в этом случае? На этом этапе преобразование данных не требуется. Я верю в будущее, так как процесс становится более сложным, необходима трансформация. Только к вашему сведению, данные будут закачиваться в azure blob storage
.