Мне трудно понять, как обращаться с переменными NaN, где вменение данных не имеет смысла.Я пытаюсь сделать кластеризацию текста / документа, и есть некоторые пропущенные значения, которые должны оставаться пропущенными, потому что нет разумного способа их заполнить.Мой набор данных содержит некоторые числовые значения, даты, тексты и т. Д. На самом деле DannyDannyDanny '* пример под подзаголовком "Рассмотрим ситуации, когда вменение не имеет смысла".отличный пример для моей проблемы.Сразу после векторизации мне нужно выполнить PCA, чтобы уменьшить размерность, чтобы я мог работать с большими данными без ошибок памяти и сократить время вычислений.Именно здесь начинается проблема, потому что ни один из алгоритмов PCA scikit-learn не может справиться с NaN (или может?).И заполнение пропущенных значений с помощью sklearn.preprocessing.Imputer не имеет смысла, потому что;
-Не все они являются числовыми или непрерывными значениями.И действительно, есть некоторые столбцы с и без дат!
- Некоторые из них должны оставаться как NaN, потому что в противном случае они могут (или могут?) Иметь нежелательные эффекты для кластеризации.
ИЯ не могу просто удалить столбцы (или строки) из-за нескольких пропущенных значений.Слишком много, чтобы потерять ... Мои вопросы:
- Как я могу иметь дело со значениями NaN без влияния на результат кластеризации?(разумное вменение данных или что-то еще ...)
- Есть ли какой-нибудь алгоритм PCA, который может работать со значениями NaN в python?
PS: извините за мой плохой английский