нужно посчитать частоту каждого термина внутри документа - PullRequest
0 голосов
/ 14 марта 2011

Мне нужно рассчитать частоту всех терминов внутри документа. Как я могу это сделать ? я не прошу коды. Я просто прошу совета. На самом деле я делаю некоторые вычисления сходства между документом и запросом. Я рассчитал частоту термина для запроса. Но я не знаю, как рассчитать частоту крачек для КАЖДОГО слова в документе. Кто-нибудь может направить меня? Спасибо за Ваше внимание.

Ответы [ 3 ]

1 голос
/ 14 марта 2011

Да, используйте HashMap для сохранения значений и просмотра файла, вы можете использовать Сканер

1 голос
/ 14 марта 2011

Вы можете использовать HashMap, где ключ - это ваш термин, а значение - его частота.Каждый раз, когда вы видите термин, вы увеличиваете значение.После того, как файл готов, у вас есть ваши номера.

0 голосов
/ 08 апреля 2011

В Java вам обязательно стоит остаться с HashMap<String, Integer>. Термины будут ключами HashMap, а термин - значением частоты.

...