Как я могу прочитать токены полей документа Lucene после их анализа? - PullRequest
3 голосов
/ 25 марта 2011

Если я создаю документ и добавляю поле, которое хранится и анализируется, как я могу затем прочитать это поле как список токенов?У меня есть следующее:

            Document doc = new Document();
            doc.add(new Field("url", fileName, Store.YES, Index.NOT_ANALYZED));
            doc.add(new Field("text", fileContent, Store.YES, Index.ANALYZED));
            // add the document to the index
            writer.addDocument(doc);

Итак, fileContext - это строка, содержащая много текста.Он анализируется, посредством чего он маркируется, когда он сохраняется в индексе.Тем не менее, как я могу получить эти токены?Я могу получить документ из индекса после его сохранения, и я могу прочитать поле «текст» из документа, но это возвращается в виде строки.Я хотел бы получить токены, если это возможно.Мой «писатель» является экземпляром IndexWriter и использует StandardAnalyzer.Любые указатели будут очень приветствоваться.

Большое спасибо

1 Ответ

4 голосов
/ 25 марта 2011

Выезд document.getField("name").tokenStreamValue().

РЕДАКТИРОВАТЬ: На самом деле этот вопрос дает вам полное решение, используя выше TokenStream.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...