Blur пользовательские данные в скриншоте сообщения электронной почты - PullRequest
2 голосов
/ 06 июля 2011

Я бы хотел иметь возможность автоматически размыть данные пользователя на снимке экрана с сообщением электронной почты, которое содержит такие данные, как имя пользователя и пароль в виде простого текста:

Изображение взято с plaintextoffenders.com , который я запускаю.

Цель состоит в том, чтобы упростить отправку скриншота таких писем, автоматически (пытаясь) размывать имя пользователя ипароль.

Должно ли (в данном конкретном случае) быть достаточно:

  1. Запустить изображение через OCR, ища слова «Имя пользователя» и «Пароль»
  2. Выделение текста справа от совпадения OCR
  3. Размытие выделения

Это наивный подход, но достаточно ли его для этого случая?Я понимаю, что формат электронной почты может быть другим, и я разберусь с ним, когда придет время.

Какие-нибудь конкретные алгоритмы или реализации, которые я должен знать, подходя к этой проблеме?

Спасибо!

Ответы [ 2 ]

1 голос
/ 06 июля 2011

Вы столкнетесь с парой проблем, о которых вам нужно подумать:

  • Сленг для слова Password
  • Перевод пароля на все языки
  • Различные случаи на всех языках
  • Есть ли Environment.NewLine после пароля? `Двоеточие? Запятая?

Что я хотел бы сделать, это запустить какой-нибудь алгоритм для поиска определенного текста, как в вашем случае Password только для одного перевода и случая, тогда я бы выпалил следующее слово (вам нужно беспокоиться о разных шрифтах и ​​моноширинте и т. Д.) а также здесь ..).

НО я бы не просто "сохранил" изображение и позволил ему быть таким, представил бы "фиксированное" изображение пользователю, загружающему его, и позволил бы пользователю "переместить" размытие и изменить его размер.

Это похоже на распознавание лиц в Googles Picasa, оно прекрасно работает, но не всегда, а когда нет, вам всегда предоставляется альтернатива.

Вы смотрели на OCRTools ? Они получили бесплатную пробную версию своих компонентов, и это кажется многообещающим.

0 голосов
/ 13 января 2014

Помимо проблем, о которых говорил Филип, может быть проблема точности. Инструменты OCR с открытым исходным кодом, которые я пробовал, имеют низкую точность для скриншотов, то есть Ocrad.js и tessearct через node.js. Однако OCR на скриншотах должно быть проще, чем отсканированные документы. Я думаю, что причина, по которой они не работают, заключается в несовпадении данных обучения и тестирования, то есть они обучаются на документах в формате PDF, а не на скриншотах. Поэтому вам, возможно, придется начать с добавления скриншотов в тренировочный набор и переподготовки.

Онлайн-инструмент для редактирования изображений на основе HTML5 www.facepixelizer.com 2 имеет функцию распознавания лиц и автоматически пикселирует лица, но в нем нет OCR для размытия паролей или адресов электронной почты.

Однако очень быстро отредактировать скриншот с помощью facepixelizer. Он имеет специальный инструмент размытия, который регулирует размытие в соответствии с размером шрифта. [заявление об отказе: я создал facepixelizer для своих собственных нужд в написании учебников и ведении блогов.]

enter image description here

...