расчет частоты - PullRequest
       25

расчет частоты

1 голос
/ 20 мая 2010

мне нужно вычислить частоту терминов в документе ... то, что я сделал, это просто "посчитал, сколько раз этот термин появляется в этом документе" ... если этот термин появился, скажем, 138 раз, я взял tfзначение как 138 .... ми делаю правильно .. ??как я где-то читал, что termfrequency (tf) = количество терминов / количество слов в документе ... если это правда, как я могу вычислить количество слов в документе ... это какое-то регулярное выражение для него ???

просьба ответить .. спасибо

Ответы [ 2 ]

0 голосов
/ 20 мая 2010

Вы не упоминаете, какой язык / программу используете. Большинство текстовых редакторов скажут вам, сколько слов в документе. В Unix вы можете использовать команду 'wc -w filename'.

0 голосов
/ 20 мая 2010

В большинстве реализаций регулярных выражений существует понятие границы слова, \b. Таким образом, регулярное выражение, которое будет соответствовать одному слову, может выглядеть так: \b(\w+)\b.

По сути, регулярное выражение говорит: сопоставьте границу слова, затем как минимум 1 символ слова (\w+), а затем снова границу слова. Круглые скобки просто добавляют подходящее слово в группу, чтобы вы могли извлечь его позже. Это, вероятно, не является необходимым в вашем случае, поэтому вы можете удалить их, если хотите.

Надеюсь, это вам немного поможет.

...