Вы можете "использовать" все данные в любом месте.
Но для этапа классификации, если вы оцениваете алгоритм и метапараметры, любая оценка эффективности классификатора в будущем (непока еще не замеченные) данные будут лучше, если их рассчитать по некоторым сдержанным данным, которые вообще не влияли на обучение / настройку классификатора.
Поскольку Doc2Vec
является алгоритмом без надзора, и классический способ его обучения (с уникальным идентификатором на документ) вообще не раскрывает метки классификации алгоритму, его вполне можно использовать всемитексты для обучения этой модели шаг.
На последующем этапе классификации (например, "CNN", о котором вы упомянули) вы должны скрыть некоторые данные для точной оценки.И, возможно, если это академический проект, это будет концом вашего упражнения / эксперимента.
Но если вы действительно развернете систему, вы, скорее всего, будете использовать все данные для переобучения модели для развертывания в производственной среде.- отказ от точной оценки в обмен на неизвестное, но вероятное улучшение фактической производительности по сравнению с реальными еще не замеченными данными.