Каждый месяц я загружаю финансовые показатели компании в основную рабочую книгу, которая вписывается в нашу модель прогнозирования, управляемую в Excel. Эти экспорты велики, как правило, 20 000 строк в месяц, и текущий файл становится медленным и трудным в использовании.
В рамках этого упражнения я проверяю, чтобы все транзакции сопоставлялись с соответствующими «Учетной записью» и «Классом». - иногда возникали ошибки при первоначальном вводе данных в наше бухгалтерское программное обеспечение. Я написал logi c в Excel для автоматической очистки части этих данных и уже создал столбцы «Переопределить», чтобы я мог вручную редактировать класс / учетную запись определенных транзакций. Часть этого процесса включает фильтрацию по определенным столбцам и выборочную проверку классов / учетных записей для выявления ошибок - например, все учетные записи, которые начинаются с «40», относятся к доходу и должны иметь соответствующие классы дохода. Точно так же это применимо ко всему набору данных, и я выполняю 5-10 других проверок, которые я выполняю для очистки данных.
Кроме того, некоторые из этих транзакций привязаны к неправильному аккаунту (см. Строку 7), и я просматриваю краткая памятка о транзакции и будет подтверждена (однако я не делаю это для всех 20 000 / месяц).
У меня есть некоторый опыт работы с Python и Pandas, и я хочу выполнить это упражнение в Python, чтобы улучшить свои навыки очистки данных.
Меня беспокоит то, что хотя в таблице перекрестных ссылок индекса / соответствия много ошибок, приличный объем работы связан с обеспечением всех доходов / стоимости проданных товаров. / учетные записи расходов помечены точно (у нас есть около 200 различных «учетных записей» и более 20 «классов» в нашем плане счетов - и даже когда я пишу сценарий для выявления разовых ошибок, мне придется использовать loc / ilo c in pandas для определения указанного c индекса / идентификатора транзакции, а затем написать еще одну разовую строку кода, чтобы сделать t он редактирует и добавляет его к фрейму данных, а затем комментирует его, продолжает анализ?
Моя интуиция состоит в том, чтобы записать каждый шаг в процессе, когда я выполняю его вручную, а затем написать скрипт / строку (и) кода Обращаться к каждой из этих проверок - не могу не чувствовать, что я потенциально что-то упускаю, и этот подход не масштабируется, потому что это упражнение происходит каждый месяц. Ищите каких-либо указаний от людей, которым, возможно, придется регулярно чистить и добавлять набор данных по сравнению с разовыми.
Извините за длинное описание и спасибо за любые указания!
![Sample data set](https://i.stack.imgur.com/1RqAt.png)
![Sample data set with formulas](https://i.stack.imgur.com/D7S0G.png)