Нечеткий индекс в наборе данных - PullRequest
2 голосов
/ 09 декабря 2011

Я столкнулся с проблемой, когда мне нужно предоставить функцию поиска, когда пользователь может предоставить «столько информации, сколько он / она знает».Затем этот набор данных должен сопоставляться с различными таблицами поиска, чтобы определить, могу ли я надежно связать его с одним из наших локальных идентификаторов.Например, если у нас есть запись для этого поискового запроса.Большинство полей нечеткие.

Пример: Одно поле может быть именем (где у пользователя только первое имя) и другой улицей, где у пользователя есть только номер улицы.

Набор данных среднего размера (~ 10 млн записей).

Какой подход лучше всего подходит для этой проблемы?SQL + Soundex?lucene?

Спасибо!

1 Ответ

0 голосов
/ 18 июля 2014

Вы можете оценить документы в Lucene и сравнить сходство.Инвертированный индексный инструмент, такой как Lucene, должен быть быстрее и гораздо более масштабируемым, чем традиционные поиски по значению ключа в SQL.

...