Я надеюсь, что вы можете мне помочь, вот моя проблема:
edit: Теперь, когда я передумал, если есть способ удалить термин из индекса, он все равно будет работать.Есть способ сделать это?если есть, нет необходимости читать остальную часть вопроса.спасибо!
Вот что я собираюсь сделать: 1 - Я должен проиндексировать некоторые файлы при удалении стандартных стоп-слов.2 - После этого я должен посчитать частоту документов каждого термина и удалить те термины, которые имеют df <2 </p>
Как я это делаю:
1 - я индексирую файлы с помощью indexwriter, удаляя стандартные стоп-слова.2 - Я считаю df каждого термина и добавляю в список стоп-слов.3 - И затем я снова индексирую тексты, используя indexwriter, но с новым списком стоп-слов
Что на самом деле происходит:
При первом индексировании все идет по плану.Проблема в том, когда я пытаюсь индексировать во второй раз.Результат становится довольно непредсказуемым:
1) если я запускаю программу один раз, даже если у стоп-слов есть новые слова, удаляются только стоп-слова std.
2) если я запускаю программуво второй раз удаляются члены с df <2. </p>
Я печатаю термины в индексе дважды, один после индексации в первый раз и один после индексации во второй раз.
Когда я запускаюсь во второй раз, термины с df <2 кажутся удаленными в первом отпечатке (обратите внимание, что я добавляю термины с df <2 при индексации во второй раз, это не должно) казаться удаленными в первомпечать. </p>
Возможно, способ, которым я объяснил, был немного запутанным, я прошу вас сказать мне, если что-то не может быть понято.
Я надеюсь, что вы, ребята, можете мне помочь.Большое спасибо!