Question

У меня есть папка, содержащая файлы SQL (для схемы) и заархивированные файлы (файлы CSV). Я хочу читать файлы с одной и той же схемой в один фрейм данных, и поэтому для разных схем разные фреймы данных в pyspark.

Структура моей папки выглядит примерно так:

abc.sql
abc1.gz
abc2.gz
def.sql
def1.gz
def2.gz

и так далее ...

как мне поступить

LaSul · Answer 1 · 07 марта 2019

Вам просто нужно добавить параметр inferSchema и установить его на True:

data = spark.read.csv([DATA_PATH], inferSchema = True, header = True, sep = ";")

как читать разные CSV-файлы с другой схемой в Pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

как читать разные CSV-файлы с другой схемой в Pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы