Question

Я хочу извлечь информацию таблицы из данных OCR, у меня есть необработанный текст, и это текст.Я пробовал pytesseract, но не смог найти фактическую реализацию.

Вот изображение: https://drive.google.com/open?id=1CGJwbmf5snoXvwlQAsRAxIRRixbT_Q8l

Я пробовал это: https://github.com/WZBSocialScienceCenter/pdftabextract

этот метод неработать на меня вообще.

Я хочу табличную структуру этой таблицы из данных распознавания для моей дальнейшей обработки.

sarath s · Answer 1 · 20 января 2019

pdftabextract не является OCR. Требуются отсканированные страницы с OCR информация, то есть «сэндвич PDF», который содержит как отсканированные изображения и распознанный текст. Вам нужно программное обеспечение, как Tesseract или ABBYY Finereader for OCR.

Пожалуйста, попробуйте tesseract, у него относительно более простая реализация.

Я хочу извлечь информацию из таблицы из данных OCR

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Я хочу извлечь информацию из таблицы из данных OCR

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы