Я использовал пакет Scikit-learn для создания разреженной матрицы документов и токенов в моем наборе данных.Я хотел бы отобразить это в pandas dataframe приведенной ниже формы:
doc_id token score
1 cat 2
1 dog 5
1 monkey 3
2 dog 7
2 cat 4
2 house 8
Метод, который я использовал до сих пор, заключается в следующем:
- Преобразование разреженной матрицы в плотную матрицу
- Преобразование плотной матрицы в фрейм данных
- Преобразование фрейма данных pandas в словарь
- Преобразование словаря в формат выше
Это, конечно, очень долгои хотя он работает для моего небольшого набора данных, он не будет масштабироваться.
Какой наиболее эффективный по времени способ преобразования разреженной матрицы в формат выше?