Я построил конвейер, который начинается с преобразования строки в числа c с использованием алгоритма gensim doc2ve c. Затем эти векторы подают в автоэнкодер, который использует MSE в качестве метрики производительности c (mse между входным вектором и прогнозируемым вектором), и это метрика c, которую я использую, чтобы выбрать лучший набор параметров (чем меньше значение mse, лучший набор параметров). После того, как я выбрал лучшую модель, я тестирую ее с другими данными, и я измеряю косинусное расстояние между входными и предсказанными векторами и обнаружил, что этот косинус не такой, как ожидалось, я имею в виду, если мой автоэнкодер хорошо с точки зрения MSE, почему у меня значение косинусного расстояния, которое показывает высокое сходство с никогда не замеченными образцами ...?
Спасибо!