Я хотел бы использовать Spark Structured Streaming и связать его с Kafka . Однако я все еще получаю NoSuchMethodError : org. apache .kafka.clients.consumer.KafkaConsumer. подписаться ошибка, и теперь я просто не знаю, что делать дальше.
Моя настройка:
- Ubuntu 19
- Scala 2.11
- Кафка 2.4.0 S
- Spark 2.4.5
- Если бы oop 2.7
Я даже не могу запустить пример сценария:
from pyspark.sql import SparkSession
from pyspark.sql.functions import explode
from pyspark.sql.functions import split
from pyspark.sql.types import *
from pyspark import SparkConf
spark = SparkSession.builder.appName("SparkSpeedLayer").getOrCreate()
spark.sparkContext.getConf().getAll()
data_stream = spark.readStream \
.format("kafka") \
.option("kafka.bootstrap.servers", "localhost:9092") \
.option("subscribe", "tweets-lambda1") \
.option("startingOffsets", "latest") \
.option("kafka.partition.assignment.strategy","range") \
.load()\
.selectExpr("CAST(value AS STRING)")
query = data_stream.writeStream\
.format("console")\
.start()
query.awaitTermination()
Я запускаю его на Spark, используя:
spark-submit --packages org.apache.kafka:kafka-clients:2.4.0 spark_consumer.py localhost:9092 tweets-lambda1
Примечание : у меня есть баночка spark- sql -kafka & kafka-клиентов, но я все еще не могу запустить