Когда я пытаюсь прочитать файл паркета из HDFS, я получаю схему во всех смешанных случаях. В любом случае, мы можем преобразовать это во все строчные буквы?
df=spark.read.parquet(hdfs_location) df.printSchema(); root |-- RecordType: string (nullable = true) |-- InvestmtAccnt: string (nullable = true) |-- InvestmentAccntId: string (nullable = true) |-- FinanceSummaryID: string (nullable = true) |-- BusinDate: string (nullable = true) What i need is like below root |-- recordtype: string (nullable = true) |-- investmtaccnt: string (nullable = true) |-- investmentaccntid: string (nullable = true) |-- financesummaryid: string (nullable = true) |-- busindate: string (nullable = true)
Сначала прочитайте файлы паркета
df=spark.read.parquet(hdfs_location)
, затем используйте функцию .toDF для создания кадра данных со всеми lower column names
.toDF
lower column names
df=df.toDF(*[c.lower() for c in df.columns])