Question

Я пытаюсь обновить Pandas Dataframe данными из API и записать их в .csv, я должен быть уверен, что он не содержит повторяющихся строк.

Я проверял здесь, чтобы увидеть, в чем может быть проблема (например, забыл добавить inplace = True), но, похоже, это не так.

Итак ... У меня есть панды, читающие CSV

df = pd.read_csv(file)

Затем я загружаю еще несколько данных из API (я убедился, что у меня есть дубликаты строк) и создаю df2 (файл csv был написан с помощью того же кода, поэтому я уверен, что дублирующаяся строка точно такая же). Теперь мне нужно добавить кадр данных к другому и затем удалить дубликаты:

df = df.append(df2, ignore_index=True)
df.drop_duplicates(subset=None, keep='first', inplace=True)

тогда я попробовал

df = df.drop_duplicates()

Я бы не ожидал увидеть дублирующуюся строку с обоими, но я должен что-то упустить, так как они все еще там, и я не могу понять, почему. Я проверил, касался ли этот вопрос чей-то вопрос, но я заметил, что проблема обычно заключается в том, что не хватает inplace = True… чего я не сделал.

Я не могу понять, почему я не могу удалить дубликаты из Pandas DF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Я не могу понять, почему я не могу удалить дубликаты из Pandas DF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы