Question

Одной из сложных тем в компьютерном зрении является обработка отсканированных документов. Обычно это включает в себя ряд шагов, таких как удаление шума, анализ цвета, бинаризация, идентификация текстового блока, распознавание текста, а затем, возможно, некоторый контекстный анализ и исправление.

Мне любопытно, если кто-то понимает, знает или может указать мне на литературу о том, как Google идентифицирует текстовые блоки до стадии OCR. Есть идеи?

M. Dudley · Answer 1 · 25 мая 2009

Я полагаю, что Google использует механизм Tesseract OCR в сочетании с другим инструментом под названием Ocropus , оба из которых имеют открытый исходный код. Я ничего не знаю о том, как они работают, но вы можете быть заинтересованы в проверке кода, доступного по ссылкам выше.

alxp · Answer 2 · 15 января 2009

Это информация из вторых рук от специалиста по оцифровке в моей библиотеке, но похоже, что подход Google состоит в том, чтобы просто бросить все через автоматизированный процесс, сделать все, что похоже на текст, и не слишком возиться с обрезкой отдельных изображений или проводит много семантического анализа, чтобы найти подписи к изображениям и т. д. Они могут делать тонкие вещи, которые не очевидны, но на первый взгляд они явно стремятся к количеству, а не к качеству, что разумно для них сделать для своих целей, ИМО. 1001 *

Как Google Книги находит текстовые регионы?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как Google Книги находит текстовые регионы?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы