TF-IDF - это способ преобразования текстовых данных в числовую форму c, но в одном кадре данных, когда мы вычисляем TFIDF, а затем разделяем данные на наборы train и test, мы используем тестовые данные для вычисления TF-IDF (формула: w = tf * log (N / df), что N - количество всех документов, хотя он должен содержать только тестовые документы), что неверно, потому что мы не должны использовать тестовые данные вообще. Но я часто вижу, что этот метод используется для классификации (например, классификации полярности текстовых данных) на многих сайтах Inte rnet. Это неправильно? или я сбиваюсь с пути ??