Spark Autoencoder возвращает слишком похожие закодированные векторы - PullRequest
0 голосов
/ 26 февраля 2020

Я создал набор данных c syntheti из нормальных дистрибутивов с 20 функциями. Так, например, первые 500 строк имеют 20 объектов, все сгенерированные из одного и того же нормального распределения с заданным средним и стандартным значением. Для тестирования разработанного мною алгоритма я использую авто-кодер, но проблема в том, что возвращаемые закодированные версии данных состоят из очень похожих векторов и имеют очень маленькие значения, такие как 1.1234E-125. Я думаю, что это создает проблему, потому что я использую эти закодированные версии данных для выполнения KNN, но это исключение, потому что он не может рассчитать средние расстояния из-за слишком малых значений.

Любой может попытаться удивиться почему автоэнкодер работает так плохо? Это работает плохо, даже если я использую то же количество скрытых нейронов, что и исходные объекты, от 18 до 20, и, по моему (неопытному) мнению, может зависеть от неспособности ae уловить корреляцию между функциями.

...