Время обработки данных в текстовых файлах в 1 Excel - PullRequest
0 голосов
/ 30 августа 2018

Я извлекаю данные в таблицу Excel из 24 текстовых файлов (размером от 12 КБ до 3,5 МБ), используя Pandas. Общий размер файлов составляет 50 МБ.

Формат текстовых файлов таков, что столбцы не стандартизированы. Я построчно читаю в каждом файле и прохожу различные логические проверки с помощью циклов for, затем записываю строку в словарь. Я преобразую этот словарь в 1-рядный фрейм данных, к которому я продолжаю добавлять.

Я запускаю скрипт (просто для компиляции кадра данных без сохранения в Excel) в течение последних 3 часов (осталось 2 файла). Отдельно я вручную обработал 24 файла кусками по 5-10, и каждый из этих прогонов занял всего около 10 минут. Я noob по управлению памятью Python и хотел бы понять, что происходит и как я могу улучшить.

Я предполагаю, что это занимает так много времени из-за большого фрейма данных, который Python должен хранить в памяти, так как он добавляет записи в него. Если это так, мне может понадобиться выяснить, как писать каждую строку прямо в Excel. Что усложняет это, конечно, наличие вышеупомянутых нестандартных столбцов.

Даже если бы я собирал пакетные файлы в группы по 4, их соединение в Python, скорее всего, снова заняло бы много времени.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...