Question

Я использовал пакет Scikit-learn для создания разреженной матрицы документов и токенов в моем наборе данных.Я хотел бы отобразить это в pandas dataframe приведенной ниже формы:

doc_id    token    score
   1       cat      2
   1       dog      5
   1       monkey   3
   2       dog      7
   2       cat      4
   2       house    8

Метод, который я использовал до сих пор, заключается в следующем:

Преобразование разреженной матрицы в плотную матрицу
Преобразование плотной матрицы в фрейм данных
Преобразование фрейма данных pandas в словарь
Преобразование словаря в формат выше

Это, конечно, очень долгои хотя он работает для моего небольшого набора данных, он не будет масштабироваться.

Какой наиболее эффективный по времени способ преобразования разреженной матрицы в формат выше?

Python - Преобразование матрицы документа TF (разреженной) в список значений

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Python - Преобразование матрицы документа TF (разреженной) в список значений

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы