Исходя из визуализированных графиков, какие функции матрицы данных лучше для PCA, «X_scaled» или «X», почему? - PullRequest
0 голосов
/ 21 сентября 2018

Первый график представляет собой график путем передачи матрицы объектов из 25 объектов, а второй график преобразуется из той же матрицы объектов, но масштабируется с помощью StandardScaler ().Я очень смущен этим вопросом, я понимаю, что PCA используется для визуализации данных большого размера.Но я не понимаю, что подразумевается под «хорошим» сюжетом PCA.Оба графика выглядят так, как будто у них много точек совпадают друг с другом, но я думаю, что это можно преодолеть путем увеличения или изменения масштаба, поэтому я думаю, что количество совпадающих точек на графике не должно быть критерием, чтобы судить,лучше.

У меня есть еще одна идея, которая заключается в том, что масштабированный график (который является вторым) имеет более четкий кластер (большинство красных точек находятся на втором главном компоненте - ось у, а синие точки - на первом компоненте).--- ось х), так что в этом отношении, я думаю, масштабированный лучше.Может ли кто-нибудь объяснить это мне?

Спасибо!

enter image description here

1 Ответ

0 голосов
/ 21 сентября 2018

Насколько мне известно, StandardScaler() (я полагаю, вы используете значение из sklearn), преобразует ваши данные в среднее значение, равное нулю и единице дисперсии.

Это обычный шаг для приложений машинного обучения, чтобы сделать данные более «гауссовыми», например, алгоритмы машинного обучения могут обрабатывать их лучше.Если набор данных имеет гораздо большую дисперсию, чем другие, этот набор данных будет доминировать над объектом в противном случае.И, как вы уже сказали, «масштабированный» график выглядит лучше, поскольку данные обрабатываются более равномерно.См. Также здесь для дальнейшего объяснения.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...