Как я могу проиндексировать файл дампа XML Википедии, используя Indri? - PullRequest
0 голосов
/ 18 апреля 2019

Для проекта класса поиска информации я пишу поисковую систему для статей Википедии. Википедия предоставляет дамп XML со всеми статьями и их заголовками. Мне нужно проиндексировать статьи и пытался использовать Indri buildIndex.

Я попытался написать свой собственный файл параметров buildIndex, указав, что это файл xml и статьи разделены этим элементом. Однако, когда я пытаюсь запустить buildIndex, он запускается в течение короткого времени (файл Википедии составляет 50 + ГБ), а папка индекса пуста.

 <parameters>
    <index>D:\Documents...Index</index>
    <memory>6G</memory>
    <corpus>
      <path>D:\Documents...</path>
      <class>xml</class>
    </corpus>
    <stemmer><name>porter</name></stemmer>
    <field>
      <name>title</name>
    </field>
     <stopper>
    <word>a</word>
     </stopper>
  </parameters>

Я надеялся, что это внесет в указатель каждую статью, чтобы я мог написать поисковую систему, которая использует модель векторного пространства для поиска документов.

...