2 вопроса о функциональности dedupe_dataframe в пакете pandas_dedupe - PullRequest
0 голосов
/ 04 июня 2019

Я хочу запустить скрипт автоматической очистки данных с помощью функции dedupe_dataframe из pandas_dedupe, но столкнулся с несколькими проблемами.

Функция автоматически форматирует все в строку, если она не указана в качестве другого типа данных. Поскольку в загруженных наборах данных будут присутствовать разные заголовки столбцов, возможно ли просто пройти через уже назначенный тип данных pandas dataframe?

Можно ли запретить функции автоканонизировать поля? У меня уже есть метод для этого, который не дублирует столбцы, и хотел бы избежать необходимости удалять их после факта.

Я прочитал столько информации pandas_dedupe, сколько смог найти там (это более новый пакет с меньшим числом подписчиков, поэтому я надеюсь, что я попал в одну из немногих здесь!), Но не могу найти ничего вокруг эти вопросы.

...