Как программно обнаружить уязвимую / личную информацию в резюме (с помощью синтаксического анализа / анализа и т. Д ...) - PullRequest
1 голос
/ 01 сентября 2010

Чтобы конкретизировать вопрос:

  1. Как обнаружить имена людей (кажется, простой случай извлечения именованных сущностей?)
  2. Как определить адреса: моя лучшая догадка - найтипочтовый индекс (регулярные выражения);названия стран и городов, а также текст вокруг них.
  3. Что касается телефонов, электронных писем - они, вероятно, могут быть пойманы различными регулярными выражениями + предварительная обработка
  4. Не волнует образование / опыт работы в этомpoint

Причина: для создания полнотекстового индекса по резюме вся уязвимая информация должна быть удалена из них.

PS любые сторонние API / службы не будут работать какрешение.

Ответы [ 3 ]

2 голосов
/ 03 сентября 2010

Вас интересует проблема извлечения информации из полуструктурированных источников.http://en.wikipedia.org/wiki/Information_extraction

Я думаю, вам следует скачать пару научных статей в этой области, чтобы понять, что можно сделать, а что нет.

0 голосов
/ 04 сентября 2010

Я думаю, что проблему следует разбить на два поисковых домена:

  1. Поиск информации о собственных именах
  2. Поиск информации, которая является формальной

Во-первых, информацию, относящуюся к собственным именам, вероятно, лучше всего найти путем поиска предметов, которые являются либо грамматически важными, либо значимыми. То есть В английском языке используется только первое слово предложения и собственные существительные. Для грамматических правил вы можете найти все слова, в которых первая буква слова написана заглавными буквами, и сравнить их с базой данных, содержащей слово и тип [т.е. Боб - Имя, Элон - Место, Англия - Место].

Во-вторых: информация, которая является формальной. Это больше об адресах электронной почты, телефонных номерах и физических адресах. Все они имеют определенные форматы, которые не меняются. Используйте регулярные выражения и используйте алгоритм для определения качества совпадений.

Берегись: Грамматические правила меняются в зависимости от языка. Немецкий пишется с заглавной буквы КАЖДОЕ существительное. Лучше всего определить язык документа до применения ваших правил. Кроме того, другая проблема с этим [и моим резюме иногда] - как это разработано. Если резюме было разработано с помощью чего-то иного, чем текстовый редактор [дизайнерские инструменты], текст может не совпадать или иметь формат растрового изображения.

TL; DR Версия: методы НЛП могут вам очень помочь.

0 голосов
/ 01 сентября 2010

Я чувствую, что это не может быть сделано машиной.

Каждое другое резюме будет иметь другой формат и формат. Лучшее, что вы можете сделать, - это разработать внутренний формат и вручную скопировать каждое содержимое резюме. Или попросите кандидатов заполнить вашу форму (не многие будут беспокоиться).

...