У меня есть форма pandas dataframe (NxK), где N представляет количество строк (каждая строка является пользователем), а K представляет количество пользовательских функций. Этот фрейм данных чрезвычайно разрежен, и я хочу найти плотную кодировку для его строк. Я вижу, что SciPy имеет разреженный метод SVD, но он требует, чтобы я преобразовал фрейм данных в этот CSC_matrix
.
Мои вопросы:
- Есть ли лучшая альтернатива, чем функция SciPy?
- Существует также функция
np.linalg.svd
, но, вероятно, мне потребуется ввести значения NaN. Будет ли хорошей идеей заполнить их 0?