Я выгляжу как сумасшедший из-за ответа на этот вопрос, но я все еще в неведении:
я использую
int[] getTermPositions(int index)
TermPositionVector У меня есть для поля (которое было установлено для хранения смещений и позиций), чтобы получить позиции терминов терминов, которые мне интересно выделить в качестве ключевого слова в контексте.
Вопрос: чему соответствуют эти позиции? Очевидно, не
String[] getTerms()
, который возвращается интерфейсом TermFreqVector, поскольку он содержит только необработанное количество моих терминов.
То, что я ищу, - это способ получить «токенизированный» массив моего поля, чтобы я мог затем вытянуть окружающие термины вокруг значений индекса, возвращаемых getTermPositions(int index)
Помощь? Большое спасибо.