Мы пытаемся извлечь текстовое содержимое из обычного pdf и отсканированного pdf (изображения), используя tesseract-ocr.
Мы наблюдали следующие проблемы для PDF с таблицей, так как содержимое таблицы извлекается неправильно.
- Содержимое нескольких ячеек (строк / столбцов) не отображается. Иногда заголовок таблицы отсутствует.
- Если в таблице есть числа, все числа не извлекаются.
- Некоторые буквы извлечены неправильно. например. меня неправильно истолковывают как л.
- Последовательность столбцов взаимозаменяется при горизонтальном разборе.
- Некоторые дополнительные символы извлекаются вместе с обычными.
Пробовал image_to_string, image_to_data, подход opencv
Пример кода:
из PIL import Image
импортный pytesseract
из pytesseract import image_to_string
из pytesseract import image_to_boxes
изображение = (pytesseract.image_to_string (Image.open ( 'table_number.jpg')))
печать (изображение)
Он должен правильно извлекать строки и столбцы, которые сейчас не извлекаются. Пожалуйста, предложите функцию или метод для улучшения результатов извлечения содержимого таблицы с использованием tesseract.