Question

Мне нужно загрузить несколько файлов паркета в фрейм данных spark и указать отдельно, из какого файла паркета я загрузил данные. Можно ли добавить столбец при загрузке данных?

gmds · Answer 1 · 14 мая 2019

Вы можете использовать input_file_name вместе с reduce и union:

from pyspark.sql import functions as F
from functools import reduce

paths = ['first', 'second', 'third']  # your paths here
dataframes = [spark.read.parquet(path).withColumn(path, F.input_file_name()) for path in paths]

result = reduce(lambda x, y: x.union(y), dataframes)

Загрузка многократного паркета в спарк-фрейм

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Загрузка многократного паркета в спарк-фрейм

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы