как написать только заголовок с искрой - PullRequest
0 голосов
/ 19 ноября 2018

Моя ситуация:

У меня есть набор источников, и я должен пропустить их через слои данных, предположим, что у меня есть слои A, B и C. Иногда любой источник попадает в слой A снет данных, только заголовок источника, в моем случае все данные в формате avro.Затем я должен передать его от A до B, в моем случае слой B может быть CSV.В последнее время требования к слою B меняются, и теперь у меня тоже есть паркетные файлы.Мне нужны файлы, потому что слою C нужно что-то прочитать, по крайней мере, заголовок.

Моя проблема:

Это когда мне нужно разобрать только файл avro заголовка в файл паркета.Есть ли какое-либо решение, использующее Spark / scala, которое может записывать только заголовки файлов формата avro, parquet и т. Д.?

У меня есть код, который может анализировать только заголовки в csv, просто перечисляя столбцы и записывая их как csv или plainText, но когда я пытаюсь писать в avro или parquet, он пишет только флаг _SUCCESS spark,Я использовал различные режимы сохранения и свойства, которые я нашел, и Spark принимает.

Для получения дополнительной информации я использую версию Spark 2.3.1, Scala 2.11.11

...