Нормализация данных Unicode для индексации (для многобайтовых языков): какие продукты это делают?Есть ли в Lucene / Hadoop / Solr? - PullRequest
1 голос
/ 20 ноября 2010

У меня есть несколько (более 1 миллиона) документов, сообщений электронной почты и т. Д., Которые необходимо проиндексировать и выполнить поиск. Каждый документ потенциально имеет свою кодировку.

Какие продукты (или конфигурации для продуктов) мне необходимо изучить и понять, чтобы сделать это правильно?

Мое первое предположение основано на Lucene, но это то, чему я просто учусь на ходу. Мое главное желание - запустить процесс кодирования, требующий много времени, как можно скорее, чтобы мы могли одновременно создать интерфейс поиска. Это может потребовать некоторой нормализации двухбайтовых символов.

Любая помощь приветствуется.

Ответы [ 4 ]

1 голос
/ 20 ноября 2010

Вы можете попробовать Тика .

1 голос
/ 20 ноября 2010

Конвертируйте все в UTF-8 и тоже запустите через форму нормализации D. Это поможет вашим поискам.

0 голосов
/ 21 ноября 2010

Я предлагаю вам использовать Solr . ExtractingRequestHandler обрабатывает кодировки и форматы документов. Относительно легко получить рабочий прототип с помощью Solr. DataImportHandler позволяет импортировать хранилище документов в Solr.

0 голосов
/ 20 ноября 2010

Вы подразумеваете, что вам нужно преобразовать сами документы? Это звучит как плохая идея, особенно для большой гетерогенной коллекции.

Хороший поисковик будет иметь надежное обнаружение кодировки. Lucene делает, и Solr использует это (Hadoop не поисковая система). И я не думаю, что возможно иметь поисковую систему, которая не использует нормализованную кодировку в своем формате внутреннего индекса. Таким образом, нормализация не будет критерием выбора, хотя попытка обнаружения кодировки будет.

...