Выполнение SVD на pandas кадре данных с большим количеством Nan - PullRequest
0 голосов
/ 27 мая 2020

У меня есть форма pandas dataframe (NxK), где N представляет количество строк (каждая строка является пользователем), а K представляет количество пользовательских функций. Этот фрейм данных чрезвычайно разрежен, и я хочу найти плотную кодировку для его строк. Я вижу, что SciPy имеет разреженный метод SVD, но он требует, чтобы я преобразовал фрейм данных в этот CSC_matrix.

Мои вопросы:

  1. Есть ли лучшая альтернатива, чем функция SciPy?
  2. Существует также функция np.linalg.svd, но, вероятно, мне потребуется ввести значения NaN. Будет ли хорошей идеей заполнить их 0?
...