"Почему результат такой плохой?" Это на самом деле не сюрприз. Вы обучили одну модель хорошему сжатию информации. Преобразования, которые он изучает на каждом уровне, совсем не обязательно должны быть полезны для любого другого типа задач. Фактически, это может быть выброс большой информации, которая идеально подходит для любой вспомогательной задачи классификации, которая у вас есть, но которая не нужна для задачи, состоящей только в сжатии и восстановлении последовательности.
Вместо того, чтобы подходить к нему путем обучения отдельного автоэнкодера, вам может повезти, если вы просто добавите штрафные условия разреженности из слоев MLP в функцию потерь или используете некоторые другие типы регуляризации, такие как выпадение. Наконец, вы можете рассмотреть более продвинутые сетевые архитектуры, такие как уровни ResNet / ODE или начальные уровни, модифицированные для одномерной последовательности.