Question

У меня есть 2 схемы JSON, как показано ниже -

df1.printSchema ()

# root
# |-- name: string (nullable = true)
# |-- age: long (nullable = true)

df2.printSchema ()

#root
# |-- name: array (nullable = true)
# |-- gender: integer (nullable = true)
# |-- age: long (nullable = true)

Как можно сравнить эти 2 схемы и выделить различия, используя pyspark, поскольку я использую pyspark-sql для загрузки данных из файла JSON в DF.

Checko Bech · Answer 1 · 17 июня 2019

Хотя неясно, что вы подразумеваете под «сравнением», следующий код даст вам поля (FieldType), которые находятся на DF2, а не на DF1.

set(df2.schema.fields) - set(df1.schema.fields)

Set примет ваш список и урежет дубликаты.

Как сравнить 2 JSON-схемы, используя pyspark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.