Ошибка при выполнении OCR с использованием pytesseract - PullRequest
0 голосов
/ 27 февраля 2020

Я хочу использовать pytesseract. Это мой код.

import pytesseract 
from pdf2image import convert_from_path 

PDF_file = 'file.pdf'
text = '' 
pages = convert_from_path(PDF_file, 500)
pageText = str(((pytesseract.image_to_string(pages[0])))) 

и в результате я получаю эту ошибку

Traceback (последний вызов был последним): файл "C: \ Users \ user \ AppData \ Local \ Programs \ Python \ Python38-32 \ lib \ site-packages \ pdf2image \ pdf2image.py ", строка 409, в pdfinfo_from_path pro c = Popen (команда, env = env, stdout = PIPE, stderr = PIPE) Файл "C: \ Users \ user \ AppData \ Local \ Programs \ Python \ Python38-32 \ lib \ subprocess.py", строка 854, в init self._execute_child (аргументы, исполняемый файл, preexec_fn , close_fds, Файл "C: \ Users \ user \ AppData \ Local \ Programs \ Python \ Python38-32 \ lib \ subprocess.py", строка 1307, в _execute_child hp, ht, pid, tid = _winapi.CreateProcess ( исполняемый файл, args, FileNotFoundError: [WinError 2] Системе не удается найти указанный файл

Во время обработки вышеуказанного исключения произошло другое исключение:

Traceback (последний вызов был последним): файл " C: \ Users \ user \ Desktop \ projects \ pdfparser \ pdftest.py ", строка 13, в файле pages = convert_from_path (PDF_file, 500) "C: \ Users \ user \ AppData \ Local \ Programs \ Python \ Python38-32 \ lib \ site-packages \ pdf2image \ pdf2image.py", строка 89, в convert_from_path page_count = pdfinfo_from_path (pdf_path, userpw, poppler_path = poppler_path) ["Pages"] Файл "C: \ Users \ user \ AppData \ Local \ Programs \ Python \ Python38-32 \ lib \ site-packages \ pdf2image \ pdf2image.py", строка 430, в pdfinfo_from_path повысить PDFInfoNotInstalledError (pdf2image.exceptions.PDFInfoNotInstalledError: Невозможно получить количество страниц. Установлен ли poppler и в PATH?

1 Ответ

1 голос
/ 27 февраля 2020

Как уже отмечалось во многих комментариях, сообщение об ошибке

PDFInfoNotInstalledError (pdf2image.exceptions.PDFInfoNotInstalledError: Невозможно получить количество страниц. Установлен ли poppler и в PATH?

Точно говорит вам, что пошло не так: Poppler не установлен. Пожалуйста, обратитесь к README за помощью на этой стороне.

Видите ли, pdf2image это только оболочка вокруг утилита командной строки pdftoppm. В Linux она установлена ​​по умолчанию, поэтому вам не нужно об этом беспокоиться, но в Windows это не так.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...