Получение ошибки при извлечении текста из изображения с типом 'PIL.PpmImagePlugin.PpmImageFile' с использованием pytesseract - PullRequest
1 голос
/ 09 июля 2019

пытается извлечь текст из изображения, тип которого 'PIL.PpmImagePlugin.PpmImageFile', используя pytesseract. Код и ошибка, как показано ниже

from pdf2image import convert_from_path
pages = convert_from_path('D:/pdf_csv/HealthCare/eRDS - ML/eRDS - ML/2001468/2001468,69,70.pdf',poppler_path='C:/Users/Hp/poppler-0.68.0/bin')
text = pyt.image_to_string(Image.open(pages[0]), lang='eng')

Ошибка, которую я получаю:

AttributeError: 'PpmImageFile' object has no attribute 'read'

Или существует ли какой-либо метод для преобразования PpmImageFile в формат 'jpg' или 'png'

1 Ответ

0 голосов
/ 12 июля 2019

Добавьте fmt='jpeg' или fmt='png' к вашему вызову функции для получения изображений не-PPM из pdf2image.

В вашем примере измените

pages = convert_from_path('D:/pdf_csv/Health....001468,69,70.pdf',poppler_path='C:/Users/Hp/poppler-0.68.0/bin')

на

pages = convert_from_path('D:/pdf_csv/Health...001468,69,70.pdf', fmt='jpeg', poppler_path='C:/Users/Hp/poppler-0.68.0/bin')
...