Мне просто интересно, возможно ли использовать OCR, например pytesseract
, для автоматизации текста на изображении?Я знаю, что pytesseract
может получить image_to_boxes()
, который в основном получает ящик для соответствующего персонажа.Тем не менее, я не хочу, чтобы скрыть весь характер, только по мере необходимости (т.е. часть конфиденциальной информации).Чтобы найти это, я могу использовать поиск регулярных выражений для результата image_to_string()
, как показано ниже.
ocr_result = pytesseract.image_to_string(Image.open(my_pic))
list(set(re.findall(my_regex, ocr_result)))
Однако с image_to_box()
я не могу найти соответствующий символ, так как он соответствует одному символу, например, символ «а», который встречается на изображении несколько раз, и у меня естьне знаю, как найти соответствующий символ «а»Ниже приведен пример вывода image_to_boxes()
.
p 1404 1762 1417 1803 0
a 1404 1762 1424 1795 0
...
Есть ли способ отобразить image_to_boxes()
в image_to_string()
результат, чтобы получить правильное расположение символов?
Кто яПопытка добиться этого заключается в том, чтобы автоматизировать процесс, чтобы покрыть часть текста, которая содержит конфиденциальную информацию, черным ящиком.Кто-нибудь когда-нибудь делал это раньше?Любая помощь будет оценена.