Question

Существует URL, который возвращает данные CSV. Фактические данные по этому URL обновляются каждые 10 минут. Нужно ли вручную загружать данные по этому URL в файл, а затем загружать этот файл с помощью Apache Spark, или, например, я могу указать Spark на этот URL, и Spark будет автоматически перезагружать данные по этому URL время от времени и обрабатывать Это? Возможно ли это, например, с помощью Spark Structured Streaming?

Ram Ghadiyaram · Answer 1 · 09 апреля 2020

Есть file.sreams, как в этом примере

val fileStreamDf = sparkSession.readStream
  .option("header", "true")
  .schema(schema)
  .csv("/tmp/input") //folder where file is

Но AFIAK. Я не знаю ни о каком http-потоке URL, я думаю, что из источников, таких как s3, это должно быть возможно.

Если вы хотите изучить pls, посмотрите это.

структурированная потоковая передача по протоколу HTTP связь

, в которой используются следующие компоненты.

kafka-clients-0.10: used by KafkaAsReceiver
httpclient-4.5: HttpStreamClient uses HttpClient project
jetty-9.0: HttpStreamServer is devploped upon Jetty
spark-2.1: spark structued streaming libray

Apache Spark непрерывно загружает данные с одного URL

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Apache Spark непрерывно загружает данные с одного URL

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы