У меня есть несколько файлов (pdf и docx), в которых есть вопросы и ответы (подумайте о часто задаваемых вопросах). размер всех файлов будет около 500мб.
Ожидаемый результат: когда мы что-то ищем, он ищет во всех документах и дает соответствующий ответ
Как лучше всего проиндексировать эти файлы?
Индексируйте страницу за страницей, используя процессор вложений ingest. Я думаю, что нам нужно поддерживать отношения родитель-потомок. Боюсь, что когда мы получим что-то, используя запрос на совпадение, он вернет всю страницу, и нам нужно проанализировать это после получения ответа. и если вопрос на одной странице, а ответ на другой, я не уверен, как это работает?
Извлечение вопросов и ответов из файлов, преобразованных в json и index.- извлечение в текст и преобразование в json с вопросами и ответами в качестве ключей и индексов с использованием клиентаasticsearch. Когда у меня много файлов, я не уверен, сколько времени потребуется, чтобы преобразовать все файлы в текст, а затем в json. Я думаю, что этот подход больше подходит для текущего сценария. Но я не уверен. Пожалуйста, предложите
Есть ли другой метод, который мне нужно рассмотреть?
Спасибо за ваше время как всегда