Question

Я ищу OCR-библиотеку, которую можно параметризировать с помощью шрифта, потому что я всегда это знаю и считаю, что результаты распознавания будут намного лучше.

Кто-нибудь знает?

Andrew Cash · Answer 1 · 04 сентября 2010

Большинство механизмов OCR справятся с этой ситуацией достаточно хорошо. На самом деле механизмы распознавания не смущаются, если на странице есть только один шрифт, который можно распознать. Странно, но верно в моем опыте.

Если механизм распознавания может в первую очередь прочитать ваш шрифт, я бы просто использовал его и не беспокоился об этом. Есть лучшие варианты для улучшения распознавания.

Многие механизмы распознавания позволяют вам установить некоторые параметры распознавания, чтобы помочь улучшить распознавание, такое как фиксированная ширина или пропорциональная, с засечками или без засечек, машинная или ручная печать. Вы также можете выбрать подмножество символов, таких как прописные или цифры только для значительного улучшения результатов. То есть если у вас только числовые символы, то символ 0 (ноль) никогда не может быть перепутан с 'O' или 'o' или 'Ø'. Вы найдете, что эти подсказки будут более эффективными, чем возможность выбрать точный тип шрифта для OCR.

Другие движки позволят вам обучить ваш движок OCR работе с новыми шрифтами, и это значительно поможет, если у вас странный шрифт.

Если качество изображения хорошее, а шрифты чистые и приличного размера, я бы порекомендовал использовать Tesseract OCR от Google и OCROpus как , предложенное Майклом Миором . Это бесплатно и хорошо работает на чистый и понятный текст. Если текст немного сложен, то, безусловно, есть лучшие механизмы распознавания, такие как ABBYY, Prime Recognition, Omnipage и многие другие, хотя они будут стоить денег.

Michael Mior · Answer 2 · 02 сентября 2010

Выезд OCRopus . Он с открытым исходным кодом и спонсируется Google :) Я не уверен, что он позволит выбрать определенный шрифт, но, похоже, он дает хорошие результаты независимо от этого.

EdwinW · Answer 3 · 26 декабря 2013

Это, по-видимому, только Windows, и в основном он не ориентирован на распознавание текста, но в распознавании симбы есть методы, требующие знания используемого шрифта.

OCR для известного шрифта

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

OCR для известного шрифта

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы