Я создаю веб-приложение для поиска (многофункциональное приложение), которое предназначено для поиска по некоторым историческим документам.Эти документы имеют свою структуру.Я использую lucene 3.x для создания поисковой системы и т. Д.
До сих пор я создал свой собственный анализатор и класс SimpleToken для своих нужд.Так в чем же проблема?
Проблема в том, что у меня есть три разных файла, представляющих один и тот же документ.Один файл - это оригинальный документ, простой текст без разметки.Два других представляют собой документы, помеченные XML, один представляет топографическую структуру документа (то есть это исходный документ плюс теги для представления структуры самого себя), а другой представляет нумерацию и столбцы документа (еще раз, исходный документ плюс теги для разделениятекст на страницы и столбцы).Объединить эти два XML-документа в один чрезвычайно сложно и запутанно, файлы действительно большие (более 50 000 строк).Дело в том, что мне действительно нужна информация обоих XML-документов ..
С учетом сказанного, что, по вашему мнению, является лучшим подходом для индексации всего материала?У меня нет опыта работы с люценом, на самом деле я впервые работаю над этим.Сначала я должен знать, как я собираюсь получить текст из документов (возможно, какой-нибудь XML-парсер?), И как я собираюсь объединить информацию отмеченных документов.Как вы думаете, я должен создать два индекса, по одному для каждого помеченного документа, а затем каким-то образом объединить эти индексы?Мне действительно нужна некоторая ориентация.