Я использую Lucene StopAnalyzer для анализа строки The Brown Fox
со стоп-словом the
, поэтому она анализируется в два термина [brown, fox]
. Я могу знать смещение brown
(4, 9) и fox
(10, 13), но как я могу получить смещение исключенного члена the
?
final OffsetAttribute attribute = tokenStream.addAttribute(OffsetAttribute.class);
tokenStream.reset();
final List<String> analyzedTerms = Lists.newArrayList();
final StringBuilder stringBuilder = new StringBuilder();
while (tokenStream.incrementToken()) {
final int startOffset = attribute.startOffset();
final int endOffset = attribute.endOffset();
final String original = text.substring(startOffset, endOffset);
System.out.println(original);
}