Я хочу извлечь информацию из таблицы из данных OCR - PullRequest
0 голосов
/ 20 января 2019

Я хочу извлечь информацию таблицы из данных OCR, у меня есть необработанный текст, и это текст.Я пробовал pytesseract, но не смог найти фактическую реализацию.

Вот изображение: https://drive.google.com/open?id=1CGJwbmf5snoXvwlQAsRAxIRRixbT_Q8l

Я пробовал это: https://github.com/WZBSocialScienceCenter/pdftabextract

этот метод неработать на меня вообще.

Я хочу табличную структуру этой таблицы из данных распознавания для моей дальнейшей обработки.

1 Ответ

0 голосов
/ 20 января 2019

pdftabextract не является OCR. Требуются отсканированные страницы с OCR информация, то есть «сэндвич PDF», который содержит как отсканированные изображения и распознанный текст. Вам нужно программное обеспечение, как Tesseract или ABBYY Finereader for OCR.

Пожалуйста, попробуйте tesseract, у него относительно более простая реализация.

...