Не удается восстановить после переполнения стека в pdfplumber - PullRequest
0 голосов
/ 26 мая 2019

Я пытаюсь прочитать 1200 страниц PDF, используя python3 и pdfplumber. После создания экземпляра pdf с использованием pdfplumber любая операция на экземпляре генерирует StackOverflow. Есть ли способ в pdfplumber или python, где я могу прочитать часть pdf по части

Я попытался передать только одну страницу, но после создания экземпляра pdf любая операция экземпляра выдает Stackoverflow

pdf_instance = pdfplumber.from_path(pdf_path)

# This line throws error
pdf_page = pdf_instance.pages[0]

Сообщение об ошибке выглядит как

Fatal Python error: Cannot recover from stack overflow.

Current thread 0x00007f36c68bf700 (most recent call first):
  File "/home/akash/anaconda3/lib/python3.6/logging/__init__.py", line 1546 in isEnabledFor
  File "/home/akash/anaconda3/lib/python3.6/logging/__init__.py", line 1293 in debug
  File "/home/akash/MAY_23/env_doc/lib/python3.6/site-packages/pdfminer/psparser.py", line 544 in add_results
  File "/home/akash/MAY_23/env_doc/lib/python3.6/site-packages/pdfminer/pdfparser.py", line 69 in do_keyword
  File "/home/akash/MAY_23/env_doc/lib/python3.6/site-packages/pdfminer/psparser.py", line 616 in nextobject
  File "/home/akash/MAY_23/env_doc/lib/python3.6/site-packages/pdfminer/pdfdocument.py", line 669 in _getobj_parse
  File "/home/akash/MAY_23/env_doc/lib/python3.6/site-packages/pdfminer/pdfdocument.py", line 691 in getobj
  File "/home/akash/MAY_23/env_doc/lib/python3.6/site-packages/pdfminer/pdftypes.py", line 71 in resolve
  File "/home/akash/MAY_23/env_doc/lib/python3.6/site-packages/pdfminer/pdftypes.py", line 84 in resolve1
  File "/home/akash/MAY_23/env_doc/lib/python3.6/site-packages/pdfminer/pdftypes.py", line 164 in dict_value
  File "/home/akash/MAY_23/env_doc/lib/python3.6/site-packages/pdfminer/pdfpage.py", line 88 in search
  File "/home/akash/MAY_23/env_doc/lib/python3.6/site-packages/pdfminer/pdfpage.py", line 100 in search
  File "/home/akash/MAY_23/env_doc/lib/python3.6/site-packages/pdfminer/pdfpage.py", line 100 in search
  File "/home/akash/MAY_23/env_doc/lib/python3.6/site-packages/pdfminer/pdfpage.py", line 100 in search

...

, поскольку размер экземпляра слишком велик, мне нужно было бы разбить PDF-файл на 4-5 частей по 250-300 страниц, на которых можно выполнить операции и объединить их позже

...