Question

Я надеюсь, что вы можете помочь мне с этой проблемой. Что я намерен сделать: При правильном тексте я хочу посчитать частоты для каждой стеммизированной токенограммы без стоп-слов (другими словами, стоп-слова уже удалены).

Это ситуация: Я индексирую некоторые тексты с помощью IndexWriter с помощью ShingleAnalyzerWrapper + StandardAnalyzer и когда добавляю документ в IndexWriter (например: indexwriter.addDocument (doc, analyzer); где снова анализатор, ShingleAnalyzerWrapper + StandardAnalyzer).

Но проблема в следующем: Когда я получаю термин «частоты» и термины, кажется, что стоп-слова заменяются подчеркиванием.

Это ввод:
String text = "чтобы я хотел, чтобы я хотел связать";
String text2 = "super by hard easy";

Если что-то неясно, пожалуйста, спросите меня, чтобы я попытался прояснить ситуацию

Спасибо за помощь

Robert Muir · Answer 1 · 12 мая 2011

см. http://www.lucidimagination.com/search/document/e5681676403a007b/can_i_omit_shinglefilter_s_filler_tokens для некоторых решений.

В этом случае кажется, что вы, вероятно, хотите отключить увеличение позиции на вашем стоп-фильтре, поскольку вы не хотите вводить "дыру" в том месте, где был стоп-слово, вы хотите притворяться, будто их никогда не было.

Как я могу использовать lucene's shingleanalyzerwrapper + standardanalyzer + indexreader?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как я могу использовать lucene's shingleanalyzerwrapper + standardanalyzer + indexreader?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы