Захват PDF-кода прекращается (полный кэш пытается найти обходной путь) - PullRequest
0 голосов
/ 14 декабря 2018

Итак, я только начал программировать на Python.У меня есть много PDF-файлов, которые являются моей целью для сбора данных.Я закончил сценарий, и он работает без ошибок, если я ограничу его небольшим количеством PDF-файлов (~ 200).Если я позволю скрипту работать с 4000 pdfs, скрипт завершится без ошибки.Мой друг сказал мне, что это связано с кешем.

Я сохраняю захваченные данные в список и на последнем шаге создаю DataFrame из разных списков.Затем DataFrame экспортируется в Excel.

Поэтому я попытался экспортировать DataFrame после 200 pdf (а затем очистить все списки и фрейм данных), но затем pandas перезаписал предыдущие результаты.Это правильный путь?Или кто-нибудь может подумать о другом подходе, чтобы обойти Терминацию большим количеством PDF-файлов?

Сейчас я использую:

   MN=list()
   Vds=list()
   data={'Materialnummer': MN,'Verwendung des Stoffs':VdS}
   df=pd.DataFrame(data)
   df.to_excel('test.xls')
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...