Apache Spark непрерывно загружает данные с одного URL - PullRequest
0 голосов
/ 08 апреля 2020

Существует URL, который возвращает данные CSV. Фактические данные по этому URL обновляются каждые 10 минут. Нужно ли вручную загружать данные по этому URL в файл, а затем загружать этот файл с помощью Apache Spark, или, например, я могу указать Spark на этот URL, и Spark будет автоматически перезагружать данные по этому URL время от времени и обрабатывать Это? Возможно ли это, например, с помощью Spark Structured Streaming?

1 Ответ

1 голос
/ 09 апреля 2020

Есть file.sreams, как в этом примере

val fileStreamDf = sparkSession.readStream
  .option("header", "true")
  .schema(schema)
  .csv("/tmp/input") //folder where file is 

Но AFIAK. Я не знаю ни о каком http-потоке URL, я думаю, что из источников, таких как s3, это должно быть возможно.

Если вы хотите изучить pls, посмотрите это.

структурированная потоковая передача по протоколу HTTP связь

, в которой используются следующие компоненты.

kafka-clients-0.10: used by KafkaAsReceiver
httpclient-4.5: HttpStreamClient uses HttpClient project
jetty-9.0: HttpStreamServer is devploped upon Jetty
spark-2.1: spark structued streaming libray
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...