Индексирование файлов с помощьюasticsearch - PullRequest
0 голосов
/ 11 сентября 2018

У меня есть несколько файлов (pdf и docx), в которых есть вопросы и ответы (подумайте о часто задаваемых вопросах). размер всех файлов будет около 500мб.

Ожидаемый результат: когда мы что-то ищем, он ищет во всех документах и ​​дает соответствующий ответ

Как лучше всего проиндексировать эти файлы?

  1. Индексируйте страницу за страницей, используя процессор вложений ingest. Я думаю, что нам нужно поддерживать отношения родитель-потомок. Боюсь, что когда мы получим что-то, используя запрос на совпадение, он вернет всю страницу, и нам нужно проанализировать это после получения ответа. и если вопрос на одной странице, а ответ на другой, я не уверен, как это работает?

  2. Извлечение вопросов и ответов из файлов, преобразованных в json и index.- извлечение в текст и преобразование в json с вопросами и ответами в качестве ключей и индексов с использованием клиентаasticsearch. Когда у меня много файлов, я не уверен, сколько времени потребуется, чтобы преобразовать все файлы в текст, а затем в json. Я думаю, что этот подход больше подходит для текущего сценария. Но я не уверен. Пожалуйста, предложите

Есть ли другой метод, который мне нужно рассмотреть?

Спасибо за ваше время как всегда

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...