Как сравнить 2 JSON-схемы, используя pyspark? - PullRequest
0 голосов
/ 17 июня 2019

У меня есть 2 схемы JSON, как показано ниже -

df1.printSchema ()

# root
# |-- name: string (nullable = true)
# |-- age: long (nullable = true)

df2.printSchema ()

#root
# |-- name: array (nullable = true)
# |-- gender: integer (nullable = true)
# |-- age: long (nullable = true)

Как можно сравнить эти 2 схемы и выделить различия, используя pyspark, поскольку я использую pyspark-sql для загрузки данных из файла JSON в DF.

1 Ответ

0 голосов
/ 17 июня 2019

Хотя неясно, что вы подразумеваете под «сравнением», следующий код даст вам поля (FieldType), которые находятся на DF2, а не на DF1.

set(df2.schema.fields) - set(df1.schema.fields)

Set примет ваш список и урежет дубликаты.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...