Очистить, изменить, вручную просмотреть и применить дедупликацию фрейма данных - python с gui - PullRequest
0 голосов
/ 02 августа 2020

Пользователи вручную очищают, редактируют и дедуплицируют беспорядочные данные в Excel. Я планирую использовать python - pandas / numpy и, возможно, recordLinkage - для автоматизации большей части очистки и идентификации потенциальных дубликатов. Затем я хотел бы обработать записи, которые являются потенциальными совпадениями, чтобы пользователь мог вручную просмотреть и либо: а) удалить одну из записей; б) оставить как есть; c) отредактируйте одну / обе записи и сохраните.

Процесс будет выглядеть примерно так: исходный фрейм данных -> очищенный фрейм данных -> потенциальные дубликаты добавляются к «дублированному» фрейму данных и удаляются из очищенного фрейма данных с использованием recordLinkage -> qgrid (или другое решение) для редактирования дублированного фрейма данных -> добавить полученный дублированный фрейм данных обратно в очищенный фрейм данных

Я не уверен, что мои пользователи смогут справиться с запуском всего этого на своих владеть в Jupyter Notebooks. Я бы предпочел использовать эту функциональность либо в простом приложении / gui, либо позволить им делать это в Excel / Google Sheets, но при этом напрямую использовать python.

Любые рекомендации по простейшему решению ?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...