Алгоритмы распознавания неправильно написанных имен в текстах - PullRequest
2 голосов
/ 25 июня 2009

Мне нужно разработать приложение, которое будет индексировать несколько текстов, и мне нужно искать имена людей внутри этих текстов. Проблема в том, что, хотя правильное имя человека - «Грегори Джексон-младший», внутри текста это имя может быть написано как:
- Грег Джексон-младший
- Гегори Джексон-младший
- Грегори Джексон
- Грегори Дж. Джуниор
Я планирую индексировать тексты по ночам и составлять индекс базы данных, чтобы ускорить поиск. Я хотел бы получить рекомендацию для хороших книг и / или хороших статей на эту тему.
Спасибо

Ответы [ 3 ]

2 голосов
/ 25 июня 2009

Ваш вопрос неправильно сформулирован. Примеры не указывают на орфографическую ошибку, но изменяют форму написания полного имени.

А,

Хорошо, чтение вашего комментария предполагает, что вы не хотите рисковать этим.

2 голосов
/ 25 июня 2009
1 голос
/ 04 июня 2013

Для записи. Используйте байесовский фильтр. Вы можете использовать механический грузовик для инициализации вашего алгоритма.

...