Де-идентификация на естественном языке - PullRequest
3 голосов
/ 13 января 2012

Я ищу инструмент на естественном языке, который может автоматически де-идентифицировать английский текст. Например, каждый адрес электронной почты должен быть переименован или скрыт. Но собственные имена должны быть идентифицированы, как и адреса, а что нет.

Существует Набор инструментов для идентификации скребка MITER . Я не знаю, насколько хорошо это работает.

Мои вопросы:

  • Есть ли другие инструменты?
  • Кто-нибудь имеет опыт работы с инструментом MITRE? Насколько хорошо это работает?

Спасибо.

1 Ответ

2 голосов
/ 20 февраля 2012

Де-идентификация (возможно, чаще упоминаемая как анонимизация ) является очень активной областью исследований, поскольку ее успех, очевидно, является требованием для использования аутентичных текстовых корпусов в таких областях, как НЛП для здравоохранения, медициныи тому подобное.Я рекомендую вам взглянуть на инструменты, перечисленные в ответе на этот вопрос на CrossValidated.Если вы перейдете по ссылкам дальше, вы найдете исследовательские работы, описывающие работу этих инструментов, с дальнейшими ссылками и оценками результатов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...