Словарь соответствия имен для поиска вариантов имени и фамилии - PullRequest
2 голосов
/ 06 мая 2011

У меня есть приложение, которое будет хранить и отслеживать посетителей.Эти посетители создаются в системе планировщиками (пользователями) по мере необходимости при настройке посещения.Проблема в том, что в большинстве случаев единственными важными уникальными идентификаторами посетителя являются следующие:

  • Имя
  • Фамилия
  • Название компании

Риск дублирующих записей, существующих для одного и того же человека, присущ, планировщик может ввести новую запись посетителя вместо поиска в системе кого-то, существующего с таким именем.

Когда я сталкиваюсь с кем-товводя посетителя с тем же именем, я отображаю диалоговое окно с предупреждением о том, кем может быть этот человек, но даже этого недостаточно.

Я мог бы ввести «Джим Джонс», и этот человек может существовать всистема как «Джеймс Джонс» или «Джимми Джонс».Я вижу, что есть доступные программные пакеты для распознавания имен, но они дорогие и, конечно, более тяжелые, чем то, что я ищу.

Кто-нибудь знает, где найти бесплатный словарь или файл с открытым исходным кодом, к которому я могу программно получить доступ, чтобы найтивозможные варианты имени?Было бы неплохо использовать программное обеспечение или онлайн-сервис, но подойдет даже дамп данных или простой текстовый файл.

Я знаю, что даже это не предотвратит дублирование записей о посетителях, я просто стараюсь сохранить их как минимум, чтобыне является критической функцией.

1 Ответ

2 голосов
/ 06 мая 2011

Проверьте проект Moby (http://icon.shef.ac.uk/Moby/mwords.html) для общих имен и фамилий. Вы можете выполнить предварительное вычисление для похожих имен, используя такие инструменты, как metaphone и soundex, и использовать его для определения потенциальных совпадений. Вы также упоминаете названия компаний, которые немного сложнее в управлении, так как они могут состоять из множества вещей, для этого, возможно, посмотрите список слов из 12 слов (http://wordlist.sourceforge.net/) список 2 + 2 леммы, представленный в этом пакете, предоставляет несколько форм, которые имеют общие корни, которые можно использовать в в сочетании с аналогичным решением для орфографии для улучшения результатов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...