Моя ситуация:
У меня есть набор источников, и я должен пропустить их через слои данных, предположим, что у меня есть слои A, B и C. Иногда любой источник попадает в слой A снет данных, только заголовок источника, в моем случае все данные в формате avro.Затем я должен передать его от A до B, в моем случае слой B может быть CSV.В последнее время требования к слою B меняются, и теперь у меня тоже есть паркетные файлы.Мне нужны файлы, потому что слою C нужно что-то прочитать, по крайней мере, заголовок.
Моя проблема:
Это когда мне нужно разобрать только файл avro заголовка в файл паркета.Есть ли какое-либо решение, использующее Spark / scala, которое может записывать только заголовки файлов формата avro, parquet и т. Д.?
У меня есть код, который может анализировать только заголовки в csv, просто перечисляя столбцы и записывая их как csv или plainText, но когда я пытаюсь писать в avro или parquet, он пишет только флаг _SUCCESS
spark,Я использовал различные режимы сохранения и свойства, которые я нашел, и Spark принимает.
Для получения дополнительной информации я использую версию Spark 2.3.1, Scala 2.11.11