Question

есть несколько запросов в задании спарка, когда я запускаю это задание, я обнаружил, что каждый запрос запускает соединение с kafka, и они не обмениваются данными друг с другом, так как кэшировать данные, чтобы избежать чтения одних и тех же данныхмного раз.

Я пытался кэшировать таблицу с помощью команды "CACHE TABLE cache_table;"тогда

Queries with streaming sources must be executed with writeStream.start();;
kafka
org.apache.spark.sql.catalyst.analysis.UnsupportedOperationChecker$.org$apache$spark$sql$catalyst$analysis$UnsupportedOperationChecker$$throwError(UnsupportedOperationChecker.scala:374)
org.apache.spark.sql.catalyst.analysis.UnsupportedOperationChecker$$anonfun$checkForBatch$1.apply(UnsupportedOperationChecker.scala:37)
org.apach

Jacek Laskowski · Answer 1 · 30 января 2019

Каждый потоковый запрос является отдельным потоком.При использовании источника данных Kafka потоковый запрос также является отдельным потребителем Kafka.

При этом вам придется использовать их все как часть одного запроса, чтобы они могли обмениваться данными.join может быть решением.

несколько запросов в задании Spark Struct Streaming, так как же кэшировать данные?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

несколько запросов в задании Spark Struct Streaming, так как же кэшировать данные?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы