Я просматривал все существующие посты с вопросами, но не мог найти что-то очень важное.
У меня есть файл с миллионами записей для имени, фамилии, адреса1, адреса2, кода страны, датырождения - я хотел бы ежедневно проверять свой список клиентов с указанным файлом (мой список клиентов также обновляется ежедневно, а файл также обновляется ежедневно).
Для имени и фамилии я хотел бы получить нечеткое совпадение (может быть совпадение по нечеткой лукине / расстояние Левенштейна 90%), а для оставшихся полей страну и дату рождения я хотел точное совпадение.
IЯ новичок в Lucene, но, посмотрев на количество сообщений, похоже, что это возможно.
Мои вопросы:
- Как мне индексировать мой входной файл?Мне нужно построить индекс по комбинации FN, LN, страна, DOB и использовать индекс для поиска
- Как я могу использовать Fuzzy запрос Lucene здесь?
Есть ли еще какие-либоКак я могу реализовать то же самое?