Я сохраняю в нграммах индекса Люцена до уровня 3. Когда я читаю индекс и вычисляю оценку терминов и нграмм, я получаю результаты, подобные этому
TERM FREQUENCY.... TFIDF
minority 25 16.512926
minority report 24 16.179296
report 27 13.559037
cruise 12 11.440491
tom cruise 7 8.737819
Итак, если мы посмотрим на пример "Том Круиз", вместе, как биграмм, это происходит 7 раз. И из этого мы видим, что «круиз» происходит один раз 5 раз. Поэтому я не хочу такого дублирования частоты, потому что один только «круиз» набрал больше очков, чем «круиз Тома», что не соответствует действительности, поскольку он содержится внутри.
Извините, если я плохо объясню, я не знаю, как назвать этот тип оценки, если кто-то знает, чтобы объяснить эти технические слова, пожалуйста, отредактируйте.
Спасибо