Я использую OpenCV, и мне удалось получить блоки отсканированного текста.Теперь я хочу поэкспериментировать с методом docstrum для анализа макета страницы.Я нашел Лоуренса О'Гормана: Спектр документов для анализа макета страницы снизу вверх.Однако, поскольку мой родной язык не английский, довольно сложно понять исходный текст.
Так может ли кто-нибудь указать мне на какой-либо источник информации или быстро обобщить шаги, как выполнить этот анализ?