Из-за некоторой ошибки регулярного выражения у меня в файле .csv
много строк, которые одинаковы, но имеют немного другое форматирование, URL всегда является общей переменной. Мне нужно найти все дублированные URL-адреса в столбце "TX" и удалить все, кроме первого.
.csv
- это ~ 50 тыс. Строк. Система Windows.
Что я пробовал:
# importing pandas package
import pandas as pd
# making data frame from csv file
data = pd.read_csv("dupes.csv")
# dropping ALL duplicte values
df = data.drop_duplicates(subset ="TxHash\tx", keep = "first", inplace = True)
data.to_csv('nodupes.csv', index=False)
Все столбцы имеют / t в конце, не зная, как от них избавиться, также пробовали многочисленные варианты, включая установку новых заголовков с помощью Pandas. Перепробовал много решений, но большинство приводит к этой ошибке:
повысить KeyError (diff)
KeyError: Index (['TxHash \ t'], dtype = 'object')