Я использую Python (3.7) и Panda для поиска в Интернете данных о компании, а затем записываю каждый результат в выходной файл .xlsx.Выходной файл постоянно обновляется после каждой итерации.Я делаю это на машине с 8 гигабайтами оперативной памяти.
Однако я заметил, что при работе с большими наборами данных (+ 12 тыс. Строк) размер выходного файла уменьшается с 2000 КБ до 0 КБ, а затем возвращается к 2000 КБ при переходе к следующей строке.,
Проблема в том, что если я остановлю скрипт (или произойдет сбой), когда размер выходного файла окажется равным 0 Кб, файл будет поврежден, и я потеряю все.
Я не уверен, какое решение выбрать здесь.Есть ли настройка, которую я должен использовать в read_excel?Или, возможно, что-то нужно сделать на to_excel?
Я здесь новичок, учусь на ходу, поэтому любая помощь будет оценена.
Tks, Rhelm
Я видел дискуссии о "мариновании" и о том, что панда прочитал файл в "чанках".Но не ясно, решит ли это мою проблему (проблемы).
ОБНОВЛЕНИЕ Я ошибся в том, что эта проблема ограничена большими размерами файлов.Размер файла xlsx увеличится до 0 Кб независимо от размера.Это просто более заметно при работе с большими файлами.Моя проблема остается той же: если мой сценарий останавливается до окончательной записи И этап выходного файла был в настоящее время до 0 КБ, я теряю все ранее записанные данные.