Пользователи вручную очищают, редактируют и дедуплицируют беспорядочные данные в Excel. Я планирую использовать python - pandas / numpy и, возможно, recordLinkage - для автоматизации большей части очистки и идентификации потенциальных дубликатов. Затем я хотел бы обработать записи, которые являются потенциальными совпадениями, чтобы пользователь мог вручную просмотреть и либо: а) удалить одну из записей; б) оставить как есть; c) отредактируйте одну / обе записи и сохраните.
Процесс будет выглядеть примерно так: исходный фрейм данных -> очищенный фрейм данных -> потенциальные дубликаты добавляются к «дублированному» фрейму данных и удаляются из очищенного фрейма данных с использованием recordLinkage -> qgrid (или другое решение) для редактирования дублированного фрейма данных -> добавить полученный дублированный фрейм данных обратно в очищенный фрейм данных
Я не уверен, что мои пользователи смогут справиться с запуском всего этого на своих владеть в Jupyter Notebooks. Я бы предпочел использовать эту функциональность либо в простом приложении / gui, либо позволить им делать это в Excel / Google Sheets, но при этом напрямую использовать python.
Любые рекомендации по простейшему решению ?