tf-idf = частота термина * обратная частота документа
частота термина определяется как счетчик термина в документе.
частота обратных документов определяется как общее количество документов, деленное на количество документов, содержащих слово.
Приведенная выше формула может отличаться, но этоБольшая фотография.Теперь предположим, что у меня есть набор данных, содержащий список из 1 миллиона предложений:
1) Является ли документ записью в наборе данных?
2) Является ли весь набор данных корпусом?
Вопрос как-то относится к [1], но ответы не помогли мне понять концепцию реального набора данных.
Спасибо.
[1] Что означает «документ» в контексте НЛП?