Solr и .Net Filters - PullRequest
       5

Solr и .Net Filters

3 голосов
/ 22 сентября 2010

Я относительно новичок в чудесном мире Solr и у меня следующий вопрос.Каков наилучший способ обработки документов с точки зрения извлечения структуры документа и передачи ее в Solr для индексации.

Я хотел бы иметь возможность извлекать текст из документов Word, PDF, электронных таблиц, страниц HTML и т. Д.Фактически, практически любой документ, который содержит текст.

Я взглянул на фильтры Windows и, на первый взгляд, они, кажется, обеспечивают необходимую мне функциональность.

Вот как вы это сделаете?

sime

Ответы [ 2 ]

2 голосов
/ 22 сентября 2010

Как сказал Филипп, SolrCell - это стандартный способ индексации этих типов двоичных документов. Однако он по-прежнему не поддерживается SolrNet , поэтому вы можете выбрать следующие варианты:

  1. Реализуйте его и внесите в проект, или
  2. Обходите его, создавайте свои собственные http-запросы для отправки в Solr, избегая SolrNet для этой конкретной функции.

Кроме того, некоторые пользователи предпочитали iTextSharp / Aspose вместо SolrCell из-за проблем с производительностью .

2 голосов
/ 22 сентября 2010

Возможно, вы захотите взглянуть на проект Solr Cell .Я предполагаю, что вы используете клиент c # - но вам, вероятно, потребуется выполнить все извлечение / отображение контента для сервера с помощью инструментов Java.

На странице Solr Cell есть инструкции по использованию Apache Tika , который может обернуть библиотеки, извлекающие текст (и некоторые метаданные) из широкого спектра форматов, таких как Word или PDF.

...