Question

Я хочу читать файлы с помощью Spark всякий раз, когда файлы попадают в s3.

Я не хочу использовать лямбда-функцию, вместо этого я пытаюсь найти некоторые другие способы чтения файлов из AWS s3 всякий раз, когда новые файлы попадают в корзину s3.

Предоставляет ли AWS такое уведомление о событии Spark?

thebluephantom · Answer 1 · 21 апреля 2020

Не уверен, что это всего лишь AWS вещь.

В соответствии с предлагаемым сегодня подходом Databricks, который заключается в том, чтобы попытаться избежать чистого пакета, вы можете настроить Spark Structured Streaming для обработки входящих сообщений. файлы в качестве триггера файлов в наблюдаемом каталоге (по Spark), в отличие от событий KAFKA.

Затем вы получаете некое подобие обработки файлов методом «струйной подачи».

Вы можете настроить Spark Structured Streaming для обработки длинного интервала, 1 или N файлов одновременно.

Matt · Answer 2 · 22 апреля 2020

Вы можете создать постоянно выполняющееся потоковое задание Spark, которое использует поток файлов в качестве входных данных (обычно вы указываете путь с подстановочными знаками, например s3://bucket/path/*.json). Ваша работа будет отслеживать этот путь и всякий раз, когда там появляется новый файл, обрабатывает его.

См .: https://spark.apache.org/docs/latest/streaming-programming-guide.html#file -streams

Читайте недавно доставленные файлы Spark всякий раз, когда файлы попадают в корзину s3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Читайте недавно доставленные файлы Spark всякий раз, когда файлы попадают в корзину s3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов