Использование одного файла для обучения и проверки - это нормально в TF-IDF из-за использования тестовых данных для обучения? - PullRequest
0 голосов
/ 04 августа 2020

TF-IDF - это способ преобразования текстовых данных в числовую форму c, но в одном кадре данных, когда мы вычисляем TFIDF, а затем разделяем данные на наборы train и test, мы используем тестовые данные для вычисления TF-IDF (формула: w = tf * log (N / df), что N - количество всех документов, хотя он должен содержать только тестовые документы), что неверно, потому что мы не должны использовать тестовые данные вообще. Но я часто вижу, что этот метод используется для классификации (например, классификации полярности текстовых данных) на многих сайтах Inte rnet. Это неправильно? или я сбиваюсь с пути ??

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...