Python - Преобразование матрицы документа TF (разреженной) в список значений - PullRequest
0 голосов
/ 19 марта 2019

Я использовал пакет Scikit-learn для создания разреженной матрицы документов и токенов в моем наборе данных.Я хотел бы отобразить это в pandas dataframe приведенной ниже формы:

doc_id    token    score
   1       cat      2
   1       dog      5
   1       monkey   3
   2       dog      7
   2       cat      4
   2       house    8

Метод, который я использовал до сих пор, заключается в следующем:

  • Преобразование разреженной матрицы в плотную матрицу
  • Преобразование плотной матрицы в фрейм данных
  • Преобразование фрейма данных pandas в словарь
  • Преобразование словаря в формат выше

Это, конечно, очень долгои хотя он работает для моего небольшого набора данных, он не будет масштабироваться.

Какой наиболее эффективный по времени способ преобразования разреженной матрицы в формат выше?

...