Есть ли простой способ найти определенный текст в PDF, выделить его и распечатать или сохранить в новый файл? - PullRequest
0 голосов
/ 02 сентября 2018

Итак, я надеюсь автоматизировать процесс определения местоположения рабочих мест на карте компоновки здания в формате PDF.

Я работаю с группой по развертыванию, которая обрабатывает запросы на оборудование ИТ ... и в основном мы получаем запросы со списком имен пользователей и их расположением в здании, т. Е. Номер этажа и номер расположения стола.

Моя текущая процедура состоит в том, чтобы распечатать копию плана этажа в формате pdf для каждого этажа и вручную выделить пером все места на карте на карте, прежде чем я планирую свой маршрут на день, основываясь на низко-высоком приоритете запроса ... это может быть немного утомительно, когда мы получаем большое количество запросов - и поэтому мне было интересно, смогу ли я просто прокормить Python списком расположений рабочих мест и сгенерировать PDF со всеми уже выделенными для меня местоположениями - и, возможно, добавив несколько дополнительных комментариев на страницу, если это возможно:)

1 Ответ

0 голосов
/ 02 сентября 2018

Да, это возможно. Я развернул его для работы, поэтому не могу поделиться кодом.

Три подхода:

1. Соответствие шаблону cv2 (проблема в том, что вам нужно настроить каждый стол как шаблон)

2. pytesseract (для OCR) с алгоритмом «угадай и проверь», который сужает поле и нечеткое совпадение текста, чтобы справиться с низким качеством OCR (это медленно - займет несколько минут на стол).

3. Если столы нумеруются логически, вы можете просто создать словарь координат со смещением для «связанных» столов (это самый быстрый и точный метод)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...