Почему 80% PCA.explained_variance_ratio_ кажутся разумным порогом? Что можно сказать о количестве компонентов, необходимых для объяснения 80% дисперсии?
Согласно документации PCA ,
авто:
решатель выбирается политикой по умолчанию на основе X.shape и n_components: если входные данные больше, чем 500x500, а число извлекаемых компонентов меньше, чем 80% наименьшего измерения данных, то чем больше эффективный «рандомизированный» метод включен. В противном случае точный полный SVD вычисляется и, возможно, впоследствии усекается.
Хорошо, я не уверен, что я вообще что-то понимаю, но кажется, что 80% - это хороший порог, но почему? Я пытался найти это, но это не очень много.