Как Google Книги находит текстовые регионы? - PullRequest
4 голосов
/ 15 января 2009

Одной из сложных тем в компьютерном зрении является обработка отсканированных документов. Обычно это включает в себя ряд шагов, таких как удаление шума, анализ цвета, бинаризация, идентификация текстового блока, распознавание текста, а затем, возможно, некоторый контекстный анализ и исправление.

Мне любопытно, если кто-то понимает, знает или может указать мне на литературу о том, как Google идентифицирует текстовые блоки до стадии OCR. Есть идеи?

Ответы [ 2 ]

2 голосов
/ 25 мая 2009

Я полагаю, что Google использует механизм Tesseract OCR в сочетании с другим инструментом под названием Ocropus , оба из которых имеют открытый исходный код. Я ничего не знаю о том, как они работают, но вы можете быть заинтересованы в проверке кода, доступного по ссылкам выше.

0 голосов
/ 15 января 2009

Это информация из вторых рук от специалиста по оцифровке в моей библиотеке, но похоже, что подход Google состоит в том, чтобы просто бросить все через автоматизированный процесс, сделать все, что похоже на текст, и не слишком возиться с обрезкой отдельных изображений или проводит много семантического анализа, чтобы найти подписи к изображениям и т. д. Они могут делать тонкие вещи, которые не очевидны, но на первый взгляд они явно стремятся к количеству, а не к качеству, что разумно для них сделать для своих целей, ИМО. 1001 *

...