Что такое документ и корпус в tf-idf? - PullRequest
0 голосов
/ 02 июня 2019

tf-idf = частота термина * обратная частота документа

частота термина определяется как счетчик термина в документе.

частота обратных документов определяется как общее количество документов, деленное на количество документов, содержащих слово.

Приведенная выше формула может отличаться, но этоБольшая фотография.Теперь предположим, что у меня есть набор данных, содержащий список из 1 миллиона предложений:

1) Является ли документ записью в наборе данных?

2) Является ли весь набор данных корпусом?

Вопрос как-то относится к [1], но ответы не помогли мне понять концепцию реального набора данных.

Спасибо.

[1] Что означает «документ» в контексте НЛП?

1 Ответ

0 голосов
/ 02 июня 2019

В вашем конкретном случае, если предложения не связаны, назовите каждое предложение «документом».

Более подробно, TF означает, что термин часто встречается в текущей выборке (чтобы избежать термина «документ»).«).DF указывает, что термин часто встречается в каждой выборке.Таким образом, частное TF / DF возвращает большое число для терминов, которые являются редкими во всей коллекции - предполагая, что они значимы - и небольшое число для общих терминов.

...