как читать разные CSV-файлы с другой схемой в Pyspark - PullRequest
0 голосов
/ 07 марта 2019

У меня есть папка, содержащая файлы SQL (для схемы) и заархивированные файлы (файлы CSV). Я хочу читать файлы с одной и той же схемой в один фрейм данных, и поэтому для разных схем разные фреймы данных в pyspark.

Структура моей папки выглядит примерно так:

abc.sql
abc1.gz
abc2.gz
def.sql
def1.gz
def2.gz

и так далее ...

как мне поступить

1 Ответ

0 голосов
/ 07 марта 2019

Вам просто нужно добавить параметр inferSchema и установить его на True:

data = spark.read.csv([DATA_PATH], inferSchema = True, header = True, sep = ";")
...