Lucene - получить позицию стоп-слова - PullRequest
0 голосов
/ 08 ноября 2019

Я использую Lucene StopAnalyzer для анализа строки The Brown Fox со стоп-словом the, поэтому она анализируется в два термина [brown, fox]. Я могу знать смещение brown (4, 9) и fox (10, 13), но как я могу получить смещение исключенного члена the?

final OffsetAttribute attribute = tokenStream.addAttribute(OffsetAttribute.class);
            tokenStream.reset();
            final List<String> analyzedTerms = Lists.newArrayList();
            final StringBuilder stringBuilder = new StringBuilder();
            while (tokenStream.incrementToken()) {
                final int startOffset = attribute.startOffset();
                final int endOffset = attribute.endOffset();
                final String original = text.substring(startOffset, endOffset);
                System.out.println(original);
            }
...