Учитывая данные, которые я извлек из Kafka. Как извлечь из него значения с помощью сопоставления с образцом?
Дата кадра:
df = spark \
.readStream \
.format("kafka") \
.option("kafka.bootstrap.servers", "host1:port1,host2:port2") \
.option("subscribe", "topic1") \
.option("startingOffsets", "earliest") \
.load()
Моя проблема в том, что схема выглядит следующим образом:
df.printSchema()
root
|-- key: binary (nullable = true)
|-- value: binary (nullable = true)
|-- topic: string (nullable = true)
|-- partition: integer (nullable = true)
|-- offset: long (nullable = true)
|-- timestamp: timestamp (nullable = true)
|-- timestampType: integer (nullable = true)
Этот двоичный тип - это то, что я не могу сопоставить с шаблоном. Как мне извлечь это значение, а затем проанализировать его?