ПРИМЕЧАНИЕ
Решение Graipher расскажет вам, как создать уникальный фрейм данных.Мой ответ говорит вам, почему ваша текущая операция удаляет слишком много строк (по вашему вопросу).
END NOTE
Когда вы вводите оператор "else" для удаления дублированного твита, вы удаляете ВСЕ изстроки, которые имеют указанный твит.Давайте продемонстрируем:
import numpy as np
import pandas as pd
df = pd.DataFrame(data=np.random.randint(0, 10, (10, 5)), columns=list('ABCDE'))
Что это делает:
Out[118]:
A B C D E
0 2 7 0 5 4
1 2 8 8 3 7
2 9 7 4 6 2
3 9 7 7 9 2
4 6 5 7 6 8
5 8 8 7 6 7
6 6 1 4 5 3
7 1 4 7 8 7
8 3 2 5 8 5
9 5 8 9 2 4
В вашем методе (предположим, вы хотите удалить дубликаты из «A» вместо «Tweets») вы бы в итогес (т.е. есть только строки, которые не были уникальными).
Out[118]:
A B C D E
5 8 8 7 6 7
7 1 4 7 8 7
8 3 2 5 8 5
9 5 8 9 2 4
Если вы просто хотите сделать это уникальным, реализуйте предложение Graipher.Если вы хотите посчитать, сколько у вас дубликатов, вы можете сделать это:
total = df.shape[0]
duplicates = total - df.A.unique().size