Загрузка многократного паркета в спарк-фрейм - PullRequest
0 голосов
/ 14 мая 2019

Мне нужно загрузить несколько файлов паркета в фрейм данных spark и указать отдельно, из какого файла паркета я загрузил данные. Можно ли добавить столбец при загрузке данных?

1 Ответ

1 голос
/ 14 мая 2019

Вы можете использовать input_file_name вместе с reduce и union:

from pyspark.sql import functions as F
from functools import reduce

paths = ['first', 'second', 'third']  # your paths here
dataframes = [spark.read.parquet(path).withColumn(path, F.input_file_name()) for path in paths]

result = reduce(lambda x, y: x.union(y), dataframes)
...