Question

TF-IDF - это способ преобразования текстовых данных в числовую форму c, но в одном кадре данных, когда мы вычисляем TFIDF, а затем разделяем данные на наборы train и test, мы используем тестовые данные для вычисления TF-IDF (формула: w = tf * log (N / df), что N - количество всех документов, хотя он должен содержать только тестовые документы), что неверно, потому что мы не должны использовать тестовые данные вообще. Но я часто вижу, что этот метод используется для классификации (например, классификации полярности текстовых данных) на многих сайтах Inte rnet. Это неправильно? или я сбиваюсь с пути ??

Использование одного файла для обучения и проверки - это нормально в TF-IDF из-за использования тестовых данных для обучения?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Использование одного файла для обучения и проверки - это нормально в TF-IDF из-за использования тестовых данных для обучения?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы