Я задавал разные вопросы, но не нашел такого, который подходит для этого случая.
У меня есть две колонки с электронными письмами. Первый столбец (CollectedE) состоит из 32000, а второй столбец (UndE) состоит из 14987.
Мне нужно найти все электронные письма во втором столбце, который не существует в первом столбце, и вывести их в совершенно новый столбец.
Я пробовал что-то подобное, но это не работает из-за двух разных длин в столбцах.
import pandas as pd
import numpy as np
df = pd.read_csv('data.csv', delimiter=";")
df['is_dup'] = df[['CollectedE', 'UndE']].duplicated()
df['dups'] = df.groupby(['CollectedE', 'UndE']).is_dup.transform(np.sum)
# df outputs:
df['is_dup'] =[![enter image description here][1]][1] df[['CollectedE', 'UndE']].duplicated()
df['dups'] = df.groupby(['CollectedE', 'UndE'])
df
Вот изображение двух столбцов, если это поможет. Но, похоже, все остальные случаи касаются либо удаления дубликатов в одном столбце, либо удаления строк с одинаковыми значениями, поиска частот или аналогичных.
![enter image description here](https://i.stack.imgur.com/tLZ8q.png)
Но я надеюсь, что вы можете помочь. Спасибо!