Итак, я только начал программировать на Python.У меня есть много PDF-файлов, которые являются моей целью для сбора данных.Я закончил сценарий, и он работает без ошибок, если я ограничу его небольшим количеством PDF-файлов (~ 200).Если я позволю скрипту работать с 4000 pdfs, скрипт завершится без ошибки.Мой друг сказал мне, что это связано с кешем.
Я сохраняю захваченные данные в список и на последнем шаге создаю DataFrame из разных списков.Затем DataFrame экспортируется в Excel.
Поэтому я попытался экспортировать DataFrame после 200 pdf (а затем очистить все списки и фрейм данных), но затем pandas перезаписал предыдущие результаты.Это правильный путь?Или кто-нибудь может подумать о другом подходе, чтобы обойти Терминацию большим количеством PDF-файлов?
Сейчас я использую:
MN=list()
Vds=list()
data={'Materialnummer': MN,'Verwendung des Stoffs':VdS}
df=pd.DataFrame(data)
df.to_excel('test.xls')