Question

У меня есть несколько (более 1 миллиона) документов, сообщений электронной почты и т. Д., Которые необходимо проиндексировать и выполнить поиск. Каждый документ потенциально имеет свою кодировку.

Какие продукты (или конфигурации для продуктов) мне необходимо изучить и понять, чтобы сделать это правильно?

Мое первое предположение основано на Lucene, но это то, чему я просто учусь на ходу. Мое главное желание - запустить процесс кодирования, требующий много времени, как можно скорее, чтобы мы могли одновременно создать интерфейс поиска. Это может потребовать некоторой нормализации двухбайтовых символов.

Любая помощь приветствуется.

tchrist · Answer 1 · 20 ноября 2010

Конвертируйте все в UTF-8 и тоже запустите через форму нормализации D. Это поможет вашим поискам.

Yuval F · Answer 2 · 21 ноября 2010

Я предлагаю вам использовать Solr . ExtractingRequestHandler обрабатывает кодировки и форматы документов. Относительно легко получить рабочий прототип с помощью Solr. DataImportHandler позволяет импортировать хранилище документов в Solr.

Tobu · Answer 3 · 20 ноября 2010

Вы подразумеваете, что вам нужно преобразовать сами документы? Это звучит как плохая идея, особенно для большой гетерогенной коллекции.

Хороший поисковик будет иметь надежное обнаружение кодировки. Lucene делает, и Solr использует это (Hadoop не поисковая система). И я не думаю, что возможно иметь поисковую систему, которая не использует нормализованную кодировку в своем формате внутреннего индекса. Таким образом, нормализация не будет критерием выбора, хотя попытка обнаружения кодировки будет.

Нормализация данных Unicode для индексации (для многобайтовых языков): какие продукты это делают?Есть ли в Lucene / Hadoop / Solr?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нормализация данных Unicode для индексации (для многобайтовых языков): какие продукты это делают?Есть ли в Lucene / Hadoop / Solr?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы