Scala :: Читать несколько файлов паркета с различной информацией о схеме - PullRequest
0 голосов
/ 20 сентября 2018

У меня есть требование, при котором я должен читать файлы паркета в разных каталогах в HDFS.Каталоги разбиты клиентом, и каждый клиент имеет свою схему (соглашение об именах).

Я использую scala для чтения этих файлов в кадре данных.Есть ли способ, где я могу динамически изменять имена полей ввода, используя имя клиента в качестве входного параметра.У меня есть около 30 клиентов для чтения.

Заранее спасибо

1 Ответ

0 голосов
/ 20 сентября 2018

Сначала вы можете программно построить схему, используя StructType class https://spark.apache.org/docs/latest/sql-programming-guide.html#programmatically-specifying-the-schema, а затем сделать что-то вроде

spark.read.schema(myGeneratedSchema).parquet(path)
...