Question

Я относительно новичок в чудесном мире Solr и у меня следующий вопрос.Каков наилучший способ обработки документов с точки зрения извлечения структуры документа и передачи ее в Solr для индексации.

Я хотел бы иметь возможность извлекать текст из документов Word, PDF, электронных таблиц, страниц HTML и т. Д.Фактически, практически любой документ, который содержит текст.

Я взглянул на фильтры Windows и, на первый взгляд, они, кажется, обеспечивают необходимую мне функциональность.

Вот как вы это сделаете?

sime

Mauricio Scheffer · Answer 1 · 22 сентября 2010

Как сказал Филипп, SolrCell - это стандартный способ индексации этих типов двоичных документов. Однако он по-прежнему не поддерживается SolrNet , поэтому вы можете выбрать следующие варианты:

Реализуйте его и внесите в проект, или
Обходите его, создавайте свои собственные http-запросы для отправки в Solr, избегая SolrNet для этой конкретной функции.

Кроме того, некоторые пользователи предпочитали iTextSharp / Aspose вместо SolrCell из-за проблем с производительностью .

Philip Rieck · Answer 2 · 22 сентября 2010

Возможно, вы захотите взглянуть на проект Solr Cell .Я предполагаю, что вы используете клиент c # - но вам, вероятно, потребуется выполнить все извлечение / отображение контента для сервера с помощью инструментов Java.

На странице Solr Cell есть инструкции по использованию Apache Tika , который может обернуть библиотеки, извлекающие текст (и некоторые метаданные) из широкого спектра форматов, таких как Word или PDF.

Solr и .Net Filters

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Solr и .Net Filters

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы