Как правильно извлечь содержимое таблицы для отсканированных и обычных PDF-файлов, используя Tesseract-ocr? - PullRequest
0 голосов
/ 31 мая 2019

Мы пытаемся извлечь текстовое содержимое из обычного pdf и отсканированного pdf (изображения), используя tesseract-ocr.

Мы наблюдали следующие проблемы для PDF с таблицей, так как содержимое таблицы извлекается неправильно.

  1. Содержимое нескольких ячеек (строк / столбцов) не отображается. Иногда заголовок таблицы отсутствует.
  2. Если в таблице есть числа, все числа не извлекаются.
  3. Некоторые буквы извлечены неправильно. например. меня неправильно истолковывают как л.
  4. Последовательность столбцов взаимозаменяется при горизонтальном разборе.
  5. Некоторые дополнительные символы извлекаются вместе с обычными.

Пробовал image_to_string, image_to_data, подход opencv

Пример кода:

из PIL import Image

импортный pytesseract из pytesseract import image_to_string из pytesseract import image_to_boxes

изображение = (pytesseract.image_to_string (Image.open ( 'table_number.jpg'))) печать (изображение)

Он должен правильно извлекать строки и столбцы, которые сейчас не извлекаются. Пожалуйста, предложите функцию или метод для улучшения результатов извлечения содержимого таблицы с использованием tesseract.

...