У меня есть датафрейм pandas с 500k строками.Структурировано следующим образом, где столбец document
представляет собой строки:
document_id document
0 0 Here is our forecast
1 1 Traveling to have a business meeting takes the...
2 2 test successful. way to go!!!
3 3 Randy, Can you send me a schedule of the salar...
4 4 Let's shoot for Tuesday at 11:45.
Когда я делаю дуплекс с кадром данных на основе содержимого столбца документа, используя df.drop_duplicates(subset='document')
, я получаю половину числадокументы.
Теперь, когда у меня есть исходный кадр данных и второй кадр данных с уникальным набором значений document
, я бы хотел сравнить их, чтобы получить список document_id
, которые являются дубликатами.
Например, если все связанные document
для document_id
4, 93 и 275 - «Давайте снимать во вторник в 11:45», то как мне получить кадр данных с document
в одном столбце, а список связанных дубликатов document_id
в другом столбце?
document_ids document
...
4 [4, 93, 275] Let's shoot for Tuesday at 11:45.
Я знаю, что мог бы использовать цикл for, сравнивать каждый документ с каждым другим документом в кадре данных и сохранять все совпадения, но я стараюсь избегать многократного повторения более 500 000 строк.Что же является самым питоническим способом решения этой проблемы?