Question

Я хочу извлечь информацию из отсканированной таблицы и сохранить ее в формате CSV.Прямо сейчас мой алгоритм извлечения таблиц выполняет следующие шаги:

Применение коррекции перекоса
Применение фильтра Гаусса для шумоподавления.
Выполнение бинаризации с использованием Otsu thresholding
Выполнить морфологическое открытие.
Обнаружение Canny egde
Выполнить грубое преобразование для получения строк таблицы.
Удалить повторяющиеся строки (те же строки в диапазоне10 пикселей)
фильтрует горизонтальные и вертикальные линии, используя наклон линии (наклон должен быть меньше +/- 5 градусов для горизонтали и нормали к вертикали).

Этот алгоритмхорошо работает для цифровых PDF-файлов и большинства отсканированных документов.Но некоторые документы имеют шумную таблицу, и поэтому в ней неправильно определяются строки.

Вот пример изображения, в котором мой алгоритм не работает.

Это операции, которые я делаю с этой таблицей.1. Размытие по Гауссу

2.Отсу пороговое значение

3.Морфологическое отверстие

4. Обнаружение края ручки

5.фильтрованные линии, как вы можете видеть, линии явно не определены правильно.

Может ли кто-нибудь предложить лучший метод для выделения горизонтальных и вертикальных линий из этого вида менее качественных сканов.

Заранее спасибо!!

Shubhankar Mohan · Answer 1 · 16 апреля 2019

Проблема заключается в том, что у вас нет идеальных линий.Одним из решений для этого подхода может быть:

Порог изображения в градациях серого, как вы сделали.
Теперь найдите самый большой контур на изображении, которым будет ваша таблица.
Теперь используйте Floodfill, чтобы отделить таблицу от изображения, выбрав любую точку на контуре для создания заливной маски,

Sreekiran · Answer 2 · 24 апреля 2019

Я нашел идеальное решение в этом блоге. https://medium.com/coinmonks/a-box-detection-algorithm-for-any-image-containing-boxes-756c15d7ed26

Здесь мы выполняем морфологические преобразования, используя вертикальное ядро для обнаружения вертикальных линий и горизонтальное ядро для обнаружения горизонтальных линий, а затем комбинируем их для получения всех необходимых линий.

Вертикальные линии

Горизонтальные линии

требуемый вывод

Jimit Vaghela · Answer 3 · 16 апреля 2019

Проблема может быть в HoughLinesTransform ()

Вы можете попробовать использовать: HoughLinesTransformP ()

Для HoughLinesTranform () чтобы работать идеально, линии должны быть идеальными.На предоставленном вами изображении четко видны искажения, которые явно вызывают сбой метода.

Сначала попробуйте расширить изображение. Расширение изображения в Python.

Извлечь выровненную таблицу из отсканированного документа opencv python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Извлечь выровненную таблицу из отсканированного документа opencv python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы