Question

Когда я пытаюсь прочитать файл паркета из HDFS, я получаю схему во всех смешанных случаях. В любом случае, мы можем преобразовать это во все строчные буквы?

df=spark.read.parquet(hdfs_location)

df.printSchema();
root
|-- RecordType: string (nullable = true)
|-- InvestmtAccnt: string (nullable = true)
|-- InvestmentAccntId: string (nullable = true)
|-- FinanceSummaryID: string (nullable = true)
|-- BusinDate: string (nullable = true)

What i need is like below


root
|-- recordtype: string (nullable = true)
|-- investmtaccnt: string (nullable = true)
|-- investmentaccntid: string (nullable = true)
|-- financesummaryid: string (nullable = true)
|-- busindate: string (nullable = true)

Shu · Answer 1 · 24 февраля 2020

Сначала прочитайте файлы паркета

df=spark.read.parquet(hdfs_location)

, затем используйте функцию .toDF для создания кадра данных со всеми lower column names

df=df.toDF(*[c.lower() for c in df.columns])

Чтение паркета из HDFS и выпуск схемы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Чтение паркета из HDFS и выпуск схемы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы