Я работаю над потоковой передачей Kafka и пытаюсь интегрировать ее с Apache Spark. Однако во время бега у меня возникают проблемы. Я получаю приведенную ниже ошибку.
Я использую эту команду.
df_TR = Spark.readStream.format("kafka").option("kafka.bootstrap.servers", "localhost:9092").option("subscribe", "taxirides").load()
ОШИБКА:
Py4JJavaError: Ошибка произошла во времяВызов o77.load .: java.lang.ClassNotFoundException: Не удалось найти источник данных: kafka. Пожалуйста, найдите пакеты на http://spark.apache.org/third-party-projects.html
Как я могу решить эту проблему?
ПРИМЕЧАНИЕ: я запускаю это в Jupyter Notebook
findspark.init('/home/karan/spark-2.1.0-bin-hadoop2.7')
import pyspark
from pyspark.sql import SparkSession
Spark = SparkSession.builder.appName('KafkaStreaming').getOrCreate()
from pyspark.sql.types import *
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils
Пока все работает нормально (код выше)
df_TR = Spark.readStream.format("kafka").option("kafka.bootstrap.servers", "localhost:9092").option("subscribe", "taxirides").load()
Этоздесь все идет не так (код выше).
Блог, за которым я слежу: https://www.adaltas.com/en/2019/04/18/spark-streaming-data-pipelines-with-structured-streaming/