Можем ли мы использовать весь набор данных для doc2vec и CNN? - PullRequest
0 голосов
/ 07 мая 2019

У меня есть набор данных, и задача является мультиклассовой классификацией. Векторы абзаца представляют документы, а CNN моделируется. Для этого я разделил набор данных на тренировку (75%) и тестирование (25%). Для Doc2Vec используется обучающий набор. Затем оставшиеся данные (тест) также разбиваются на 2 части для CNN. Но мой вопрос заключается в том, можем ли мы использовать все данные для CNN после Doc2Vec?

1 Ответ

0 голосов
/ 09 мая 2019

Вы можете "использовать" все данные в любом месте.

Но для этапа классификации, если вы оцениваете алгоритм и метапараметры, любая оценка эффективности классификатора в будущем (непока еще не замеченные) данные будут лучше, если их рассчитать по некоторым сдержанным данным, которые вообще не влияли на обучение / настройку классификатора.

Поскольку Doc2Vec является алгоритмом без надзора, и классический способ его обучения (с уникальным идентификатором на документ) вообще не раскрывает метки классификации алгоритму, его вполне можно использовать всемитексты для обучения этой модели шаг.

На последующем этапе классификации (например, "CNN", о котором вы упомянули) вы должны скрыть некоторые данные для точной оценки.И, возможно, если это академический проект, это будет концом вашего упражнения / эксперимента.

Но если вы действительно развернете систему, вы, скорее всего, будете использовать все данные для переобучения модели для развертывания в производственной среде.- отказ от точной оценки в обмен на неизвестное, но вероятное улучшение фактической производительности по сравнению с реальными еще не замеченными данными.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...