Я пытаюсь настроить поисковую систему, используя Solr (или Lucene), который может иметь текст как на латинице со специальными символами (например, специальные символы будут включать Ö или Ç), так и символы кириллицы (примеры включают В или В иЖ ж).
В любом случае, я пытаюсь найти решение, позволяющее мне искать слова с этими символами, но для пользователей, у которых нет клавиши на клавиатуре ...
Примербудет (составляя слова здесь, надеюсь, никого не обидит):
- "BÖÖK" будет найден при поиске "book"
- "ЖРАЙ" будет найден, когдапоиск XRAY
- «ЖРАЙ» также будет найден при поиске ZRAY, ZHRAY или žray (см. ГОСТ 16876-71 для получения информации о транслитерации цилирического на латинский Char.
Итак, как мне поступить? Некоторые теории, которые у меня есть:
- позволяют хранить несколько текстовых полей для каждой исходной строки, одно в исходной форме, одно впервый проход транслитерации (который, например, преобразует Ö в просто O и Ж в ž, но также в X), а затем один в третьей форме (от ž до z или zh) -> означает, что я буду хранить LOTданных ...
- сохранить в solr как есть, и пусть Solr сделает этомагия -> не знаю, насколько хорошо это будет работать ... я не вижу ничего в solr, чтобы сделать это
- Волшебная пуля, которую я еще не нашел ...
Есть идеи?Кто-нибудь пробовал это раньше?