Автоматизируйте наложение текста на изображение - PullRequest
0 голосов
/ 23 апреля 2019

Мне просто интересно, возможно ли использовать OCR, например pytesseract, для автоматизации текста на изображении?Я знаю, что pytesseract может получить image_to_boxes(), который в основном получает ящик для соответствующего персонажа.Тем не менее, я не хочу, чтобы скрыть весь характер, только по мере необходимости (т.е. часть конфиденциальной информации).Чтобы найти это, я могу использовать поиск регулярных выражений для результата image_to_string(), как показано ниже.

ocr_result = pytesseract.image_to_string(Image.open(my_pic))
list(set(re.findall(my_regex, ocr_result)))

Однако с image_to_box() я не могу найти соответствующий символ, так как он соответствует одному символу, например, символ «а», который встречается на изображении несколько раз, и у меня естьне знаю, как найти соответствующий символ «а»Ниже приведен пример вывода image_to_boxes().

p 1404 1762 1417 1803 0
a 1404 1762 1424 1795 0
...

Есть ли способ отобразить image_to_boxes() в image_to_string() результат, чтобы получить правильное расположение символов?

Кто яПопытка добиться этого заключается в том, чтобы автоматизировать процесс, чтобы покрыть часть текста, которая содержит конфиденциальную информацию, черным ящиком.Кто-нибудь когда-нибудь делал это раньше?Любая помощь будет оценена.

...