Question

У меня есть два кадра данных (более 1 млн записей). Только ~ 10% строк отличаются. Я знаю, как найти дельту:

df1.subtract(df2)

Но я также хотел бы знать, какие записи являются новыми и что изменилось. Я знаю, что могу сделать это, используя Hive Context, когда у меня есть дельта, но, может быть, есть простой способ сделать это на основе некоторых функций pyspark?

Спасибо заранее.

Steven · Answer 1 · 26 июня 2018

Просто выполните соединения с leftsemi и leftanti

df = df1.subtract(df2) #diff dataframe
df.join(df2, how='leftsemi', on='id').show() #will print the modified lines
df.join(df2, how='leftanti', on='id').show() #will print the new lines

Как узнать, что нового и что изменилось при сравнении двух фреймов данных в pyspark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как узнать, что нового и что изменилось при сравнении двух фреймов данных в pyspark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов