Читайте недавно доставленные файлы Spark всякий раз, когда файлы попадают в корзину s3 - PullRequest
0 голосов
/ 21 апреля 2020

Я хочу читать файлы с помощью Spark всякий раз, когда файлы попадают в s3.

Я не хочу использовать лямбда-функцию, вместо этого я пытаюсь найти некоторые другие способы чтения файлов из AWS s3 всякий раз, когда новые файлы попадают в корзину s3.

Предоставляет ли AWS такое уведомление о событии Spark?

Ответы [ 2 ]

1 голос
/ 21 апреля 2020

Не уверен, что это всего лишь AWS вещь.

В соответствии с предлагаемым сегодня подходом Databricks, который заключается в том, чтобы попытаться избежать чистого пакета, вы можете настроить Spark Structured Streaming для обработки входящих сообщений. файлы в качестве триггера файлов в наблюдаемом каталоге (по Spark), в отличие от событий KAFKA.

Затем вы получаете некое подобие обработки файлов методом «струйной подачи».

Вы можете настроить Spark Structured Streaming для обработки длинного интервала, 1 или N файлов одновременно.

0 голосов
/ 22 апреля 2020

Вы можете создать постоянно выполняющееся потоковое задание Spark, которое использует поток файлов в качестве входных данных (обычно вы указываете путь с подстановочными знаками, например s3://bucket/path/*.json). Ваша работа будет отслеживать этот путь и всякий раз, когда там появляется новый файл, обрабатывает его.

См .: https://spark.apache.org/docs/latest/streaming-programming-guide.html#file -streams

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...