Нахождение и объединение текстовых блоков из газетных вырезок - PullRequest
0 голосов
/ 20 сентября 2018

У меня много газетных сканов (1 скан = 1 страница), и у меня есть примерный набор данных с координатами текстовых блоков в газетных вырезках.Мне нужно автоматически обнаружить и выделить все статьи на каждой странице.Будет ли хорошо подходить архитектура EAST (эффективный и точный текстовый детектор сцены), если ее использовать в моем наборе данных, или мне следует выбрать другую, например альтернативный вариант с OpenCV?У меня есть координаты этих блоков

https://imgur.com/a/LDzQTsD

Я хочу "объединить" их

https://imgur.com/a/40a4ymU

Хорошо, мои шаги с OpenCV

  1. Определение краев
  2. Расширение
  3. Поиск контуров и аппроксимация контуров

В результате я получил те же блоки, что и на этом изображении

https://imgur.com/a/LDzQTsD

...