сравнить метаданные файла паркета с помощью pyspark - PullRequest
0 голосов
/ 20 января 2020

Я использую pyspark, и у меня возникает ситуация, когда мне нужно сравнить метаданные 2 файлов паркета.

Пример: -

Parquet 1 Схема: 1, ID, строка 2, адрес Строка 3, Дата, дата

Паркет 2 Схема: 1, ID, строка 2, Дата, дата 3, строка адреса

Это должно показать мне разницу, так как столбец 2 перемещен в столбец 3 в паркете 2.

Спасибо, ВК

1 Ответ

0 голосов
/ 20 января 2020

В Spark нет встроенной команды для сравнения заголовков. Решением вашей проблемы может быть следующее:

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

df1 = spark.read.parquet('path/to/file1.parquet', header='true')
df2= spark.read.parquet('path/to/file2.parquet', header='true')

df1_headers = df1.columns
df2_headers = df2.columns

# Now in Python you could compare the lists with the headers
# You don't need Spark to compare simple headers :-)
...