Лемур получает некорректную ошибку при попытке проиндексировать - PullRequest
0 голосов
/ 20 февраля 2010

Я прошел небольшой урок по индексированию лемуров здесь:

http://www.lemurproject.org/tutorials/begin_indexing-1.php

Я создал папку «корпус», содержащую один документ с, казалось бы, правильно отформатированным файлом:

<DOC>
<DOCNO>1</DOCNO>
<TEXT>
    Here is some text
</TEXT>
</DOC>

и создал следующий файл конфигурации:

<parameters>
  <corpus>
    <path>C:\Users\Tristan\Documents\lemur\corpus</path>
    <class>trectext</class>
  </corpus>
  <memory>256m</memory>
  <index>C:\Users\Tristan\Documents\lemur\index</index>
</parameters>

Однако, когда я бегу:

IndriBuildIndex.exe C:\Users\Tristan\Documents\lemur\config\parameter.xml

Я получаю загадочное исключение:

0:00: Opened repository C:\Users\Tristan\Documents\lemur\index
0:00: Opened C:\Users\Tristan\Documents\lemur\corpus\1
0:00: Error in C:\Users\Tristan\Documents\lemur\corpus\1 : .\src\TaggedDocumentI
terator.cpp(213): Malformed document: C:\Users\Tristan\Documents\lemur\corpus\1
0:00: Closing index
0:00: Finished

Я посмотрел на соответствующие функции в источнике, но ничего особенного на меня не выскакивает. Есть идеи?

1 Ответ

0 голосов
/ 20 февраля 2010

В итоге я сохранил файл документа в формате Unix, и это сработало. Однако обратите внимание, что по какой-то причине ручное исправление концов строк не сработало, поэтому в файлы добавляются окна, которые не нравятся lemur.

...