Как передавать только новые данные (недавно добавленные) из старого файла в структурированную потоковую передачу искры? - PullRequest
0 голосов
/ 07 августа 2020

У меня есть несколько файлов, которые записаны кусками, и я хочу, чтобы мой поток обрабатывал новые данные каждого файла каждый раз, когда данные добавляются. Также я хочу, чтобы мой Stream читал только новые файлы, а не уже обработанные файлы. Мы будем благодарны за помощь.

1 Ответ

2 голосов
/ 07 августа 2020

Невозможно в качестве прямого источника.

  1. Необходимо использовать метод «хвоста» Flume и поместить этот хвост в каталог HDFS в виде файла и позволить Spark Structured Streaming следить за этим каталогом.

  2. Или вы можете использовать такие вещи, как NIFI.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...