Question

Мы пытаемся извлечь текстовое содержимое из обычного pdf и отсканированного pdf (изображения), используя tesseract-ocr.

Мы наблюдали следующие проблемы для PDF с таблицей, так как содержимое таблицы извлекается неправильно.

Содержимое нескольких ячеек (строк / столбцов) не отображается. Иногда заголовок таблицы отсутствует.
Если в таблице есть числа, все числа не извлекаются.
Некоторые буквы извлечены неправильно. например. меня неправильно истолковывают как л.
Последовательность столбцов взаимозаменяется при горизонтальном разборе.
Некоторые дополнительные символы извлекаются вместе с обычными.

Пробовал image_to_string, image_to_data, подход opencv

Пример кода:

из PIL import Image

импортный pytesseract из pytesseract import image_to_string из pytesseract import image_to_boxes

изображение = (pytesseract.image_to_string (Image.open ( 'table_number.jpg'))) печать (изображение)

Он должен правильно извлекать строки и столбцы, которые сейчас не извлекаются. Пожалуйста, предложите функцию или метод для улучшения результатов извлечения содержимого таблицы с использованием tesseract.

Как правильно извлечь содержимое таблицы для отсканированных и обычных PDF-файлов, используя Tesseract-ocr?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как правильно извлечь содержимое таблицы для отсканированных и обычных PDF-файлов, используя Tesseract-ocr?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы