Question

Я занимаюсь разработкой программного обеспечения, которое нацелено на уникальную идентификацию веб-страницы, выполняя TF-IDF (сравнение с общим английским корпусом для удаления общих слов).Потребовалось некоторое время, чтобы найти хороший свободный корпус (http://www.wordfrequency.info/top5000.asp), однако этот корпус предоставляет только частоту и дисперсию. Он не говорит, сколько документов было включено в корпус, поэтому я не могу обработать таблицу IDF.включите значение дисперсии, которое находится в диапазоне от 0 до 1, где 1 означает, что слово встречается в каждом документе. Кто-нибудь знает (или может выяснить) способ получения аналогичной таблицы IDF с использованием этих данных? Также, если кто-то знает обесплатный корпус, который включает в себя информацию, в которой я нуждаюсь, был бы так же оценен. Спасибо

Mahak Patidar · Answer 1 · 12 марта 2011

IDF = log (Total Documents in Corpus/Total Documents containing the term)

Если дисперсия представляет собой долю документов, содержащих термин, то: log (1/dispersion) будет IDF

TF-IDF Corpus Возможно ли использовать дисперсию

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

TF-IDF Corpus Возможно ли использовать дисперсию

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы