У меня есть DataFrame очищенных твитов, и я пытаюсь удалить строки твитов, которые являются частичными дубликатами.
Ниже приведен упрощенный DataFrame с той же проблемой. Обратите внимание, как у первого и последнего твита есть все, кроме прикрепленного URL-адреса, заканчивающегося общим; Мне нужен способ удалить частичные дубликаты, как этот, и сохранить только последний экземпляр.
data = {
'Tweets':[' The Interstate is closed www.txdot.com/closed',\
'The project is complete www.txdot.com/news',\
'The Interstate is closed www.txdot.com/news'],
'Date': ['Mon Aug 03 20:48:42', 'Mon Aug 03 20:15:42', 'Mon Aug 03 20:01:42' ]
}
df =pd.DataFrame(data)
Я пробовал удалять дубликаты с помощью метода drop_duplicates ниже, но, похоже, нет аргумента для выполнения sh это.
df.drop_duplicates(subset=['Tweets'])
Есть идеи, как выполнить sh это?