Question

Я пытался прочитать некоторые отсканированные документы с помощью Tesseract OCR. Большинство документов неясны, поэтому я получаю некоторые мусорные значения в строках. например,

Фактический вывод: поле даты: 16 / 02M9 , десятичное поле: 7,223. .95 C

Ожидаемый результат: поле даты: 16/02/19 , десятичное поле: 7,223,950

Это всего лишь несколько примеров, я сталкиваюсь с большим количеством подобных проблем. Итак, существует ли какая-либо библиотека, которая может очистить или предсказать правильное значение на основе данного типа данных, такого как date, numeri c, et c.

C493d · Answer 1 · 24 мая 2020

Попробуйте сначала очистить документы, как предлагается на этой странице:

https://tesseract-ocr.github.io/tessdoc/ImproveQuality

Один из упомянутых там инструментов, который может помочь:

http://www.fmwconcepts.com/imagemagick/textcleaner/index.php

Есть ли какой-нибудь пакет python для очистки или прогнозирования результата распознавания текста?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Есть ли какой-нибудь пакет python для очистки или прогнозирования результата распознавания текста?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы