Что лучше, читать все страницы сразу или страницу за страницей в python -camelot? - PullRequest
0 голосов
/ 28 апреля 2020

Я буду запускать camelot на простом цифровом экземпляре Ocean (1 виртуальный ЦП, 1 ГБ оперативной памяти) каждый день, чтобы извлекать информацию из PDF с + -150 страницами и сохранять в базе данных. Что было бы лучше для этого:

а) читать все страницы одновременно camelot.read_pdf('file.pdf', pages='all', flavor='stream')?

б) читать страницу за страницей?

for page in range(150):
   camelot.read_pdf('file.pdf', pages=f'{page}', flavor='stream')

Спасибо

1 Ответ

2 голосов
/ 29 апреля 2020

Вы сможете прочитать их все сразу , если у вас достаточно памяти, но, вероятно, нет. Следовательно, извлечение данных постранично, вероятно, будет тем, что вы считаете «лучшим», поскольку после извлечения данных вы заменяете его следующей страницей, то есть каждый раз, когда вы читаете новую страницу, вы освобождаете пространство памяти от последней.

Надеюсь, это помогло. :)

...