У меня длинное текстовое описание, и я хочу сжать и обобщить его для дальнейшего использования в исследованиях. Я читал об автоэнкодерах и их эффективности в подавлении шума в данных и уменьшении размерности. Мой вопрос: если я хочу создавать автоэнкодеры, должен ли я сначала обучить его тексту и сводке или он может найти представление, подобное моделям Word2Vec. Точка обучения автоэнкодеров мне еще не совсем понятна.
Я уже использовал модели встраивания слов Word2Vec и Doc2vec раньше и теперь хочу проверить это с помощью автоэнкодеров
Поскольку автоэнкодеры могут обучаться неконтролируемым образом, я ожидал бы передать весь корпус данных, и автоэнкодеры смогут найти оптимальное представление.
Спасибо