Сценарий: EventHub -> Azure Databricks (с использованием pyspark)
Формат файла: CSV (в кавычках, с разделителями труб и пользовательской схемой)
Я пытаюсь прочитать строки CSV, поступающие из eventhub.Spark успешно создает фрейм данных с правильной схемой, но фрейм данных заканчивается пустым после каждого сообщения.
Мне удалось провести несколько тестов вне потоковой среды, и при получении данных из файла все идет хорошо,но происходит сбой, когда данные поступают из строки.
Так что я нашел несколько ссылок, чтобы помочь мне в этом, но ни одна не работала:
can-i-read-a-csv-represented-as-a-string-in-apache-spark-using-spark-csv? rq = 1
Pyspark - преобразование строки json в DataFrame
Прямо сейчас у меня есть код ниже:
schema = StructType([StructField("Decisao",StringType(),True), StructField("PedidoID",StringType(),True), StructField("De_LastUpdated",StringType(),True)])
body = 'DECISAO|PEDIDOID|DE_LASTUPDATED\r\n"asdasdas"|"1015905177"|"sdfgsfgd"'
csvData = sc.parallelize([body])
df = spark.read \
.option("header", "true") \
.option("mode","FAILFAST") \
.option("delimiter","|") \
.schema(schema) \
.csv(csvData)
df.show()
Это вообще возможно сделать с файлами CSV?