Как использовать Python для обрезки текстовых блоков из двух или трех столбцов списка имен-адресов - PullRequest
0 голосов
/ 23 марта 2019

Я использую Python, pytesseract, PIL и numpy, чтобы попытаться обрезать каждый текстовый блок со страницы, содержащей два столбца, нумерованный список имен. Я уже превратил PDF в JPG, обрезал JPG пополам, чтобы разделить два столбца, и поместил пиксели от каждого кадрирования в массив. есть ли модуль или что-то там, что помогло бы мне идентифицировать полосы пустого пространства с двойным интервалом и обрезать вдоль этой горизонтальной линии. Оттуда будет легко сваливать в pytesseract и получать именно тот текст, который я ищу каждый раз ... Это мой первый вопрос о переполнении стека, пожалуйста, будьте осторожны. Если вам известен модуль, который сделает это простым, или если вы знаете подход, позволяющий идентифицировать вертикальные линии пустого пространства, я был бы очень признателен за толчок в правильном направлении.

...