Python Stream Kafka - невозможно увидеть данные потока - PullRequest
0 голосов
/ 16 ноября 2018

Даже после многих попыток я не вижу ни сообщения ни на консоли, ни записанного в файл.

Ниже моего кода:

df = spark.readStream.format("kafka")\
    .option("kafka.bootstrap.servers","ipaddress:9092")\
    .option("subscribe","mysql-server-1.inventory.customers")\
    .option("partition.assignment.strategy", "range") \
    .option("startingOffsets", "latest")\
    .load()#.

df = df.selectExpr("CAST(key AS STRING)", "CAST(value AS STRING)")

print(df.printSchema())
print("Streaming : {}".format(df.isStreaming))

ds = df.writeStream\
    .format("kafka")\
    .option("kafka.bootstrap.servers", "ipaddress:9092")\
    .option("topic", "mysql-server-1.inventory.customers")\
    .option("checkpointLocation", "hdfs://ipaddress:9000/user/xxxx/check")\
    .start()

ds.awaitTermination()

Примечание:

  1. тема в writeStream уже пытается использовать другое имя
  2. формат в writeStream уже пытается использовать консоль с добавлением, обновлением и завершением.Также уже попробуйте с паркетом для записи в файл
  3. При печати ds.lastProgress () получите NoneType
...