Я занимаюсь разработкой программного обеспечения, которое нацелено на уникальную идентификацию веб-страницы, выполняя TF-IDF (сравнение с общим английским корпусом для удаления общих слов).Потребовалось некоторое время, чтобы найти хороший свободный корпус (http://www.wordfrequency.info/top5000.asp), однако этот корпус предоставляет только частоту и дисперсию. Он не говорит, сколько документов было включено в корпус, поэтому я не могу обработать таблицу IDF.включите значение дисперсии, которое находится в диапазоне от 0 до 1, где 1 означает, что слово встречается в каждом документе. Кто-нибудь знает (или может выяснить) способ получения аналогичной таблицы IDF с использованием этих данных? Также, если кто-то знает обесплатный корпус, который включает в себя информацию, в которой я нуждаюсь, был бы так же оценен. Спасибо