Я относительно новичок в чудесном мире Solr и у меня следующий вопрос.Каков наилучший способ обработки документов с точки зрения извлечения структуры документа и передачи ее в Solr для индексации.
Я хотел бы иметь возможность извлекать текст из документов Word, PDF, электронных таблиц, страниц HTML и т. Д.Фактически, практически любой документ, который содержит текст.
Я взглянул на фильтры Windows и, на первый взгляд, они, кажется, обеспечивают необходимую мне функциональность.
Вот как вы это сделаете?
sime