Как очистить данные из Excel с Python в масштабе? - PullRequest
0 голосов
/ 04 апреля 2020

Каждый месяц я загружаю финансовые показатели компании в основную рабочую книгу, которая вписывается в нашу модель прогнозирования, управляемую в Excel. Эти экспорты велики, как правило, 20 000 строк в месяц, и текущий файл становится медленным и трудным в использовании.

В рамках этого упражнения я проверяю, чтобы все транзакции сопоставлялись с соответствующими «Учетной записью» и «Классом». - иногда возникали ошибки при первоначальном вводе данных в наше бухгалтерское программное обеспечение. Я написал logi c в Excel для автоматической очистки части этих данных и уже создал столбцы «Переопределить», чтобы я мог вручную редактировать класс / учетную запись определенных транзакций. Часть этого процесса включает фильтрацию по определенным столбцам и выборочную проверку классов / учетных записей для выявления ошибок - например, все учетные записи, которые начинаются с «40», относятся к доходу и должны иметь соответствующие классы дохода. Точно так же это применимо ко всему набору данных, и я выполняю 5-10 других проверок, которые я выполняю для очистки данных.

Кроме того, некоторые из этих транзакций привязаны к неправильному аккаунту (см. Строку 7), и я просматриваю краткая памятка о транзакции и будет подтверждена (однако я не делаю это для всех 20 000 / месяц).

У меня есть некоторый опыт работы с Python и Pandas, и я хочу выполнить это упражнение в Python, чтобы улучшить свои навыки очистки данных.

Меня беспокоит то, что хотя в таблице перекрестных ссылок индекса / соответствия много ошибок, приличный объем работы связан с обеспечением всех доходов / стоимости проданных товаров. / учетные записи расходов помечены точно (у нас есть около 200 различных «учетных записей» и более 20 «классов» в нашем плане счетов - и даже когда я пишу сценарий для выявления разовых ошибок, мне придется использовать loc / ilo c in pandas для определения указанного c индекса / идентификатора транзакции, а затем написать еще одну разовую строку кода, чтобы сделать t он редактирует и добавляет его к фрейму данных, а затем комментирует его, продолжает анализ?

Моя интуиция состоит в том, чтобы записать каждый шаг в процессе, когда я выполняю его вручную, а затем написать скрипт / строку (и) кода Обращаться к каждой из этих проверок - не могу не чувствовать, что я потенциально что-то упускаю, и этот подход не масштабируется, потому что это упражнение происходит каждый месяц. Ищите каких-либо указаний от людей, которым, возможно, придется регулярно чистить и добавлять набор данных по сравнению с разовыми.

Извините за длинное описание и спасибо за любые указания!

Sample data set

Sample data set with formulas

...