Для проекта класса поиска информации я пишу поисковую систему для статей Википедии. Википедия предоставляет дамп XML со всеми статьями и их заголовками. Мне нужно проиндексировать статьи и пытался использовать Indri buildIndex.
Я попытался написать свой собственный файл параметров buildIndex, указав, что это файл xml и статьи разделены этим элементом. Однако, когда я пытаюсь запустить buildIndex, он запускается в течение короткого времени (файл Википедии составляет 50 + ГБ), а папка индекса пуста.
<parameters>
<index>D:\Documents...Index</index>
<memory>6G</memory>
<corpus>
<path>D:\Documents...</path>
<class>xml</class>
</corpus>
<stemmer><name>porter</name></stemmer>
<field>
<name>title</name>
</field>
<stopper>
<word>a</word>
</stopper>
</parameters>
Я надеялся, что это внесет в указатель каждую статью, чтобы я мог написать поисковую систему, которая использует модель векторного пространства для поиска документов.