Я строю систему рекомендаций на основе контента и хочу создать матрицу внедрения для заголовков статей. Я применяю TfidfVectorizer ко всем заголовкам и получаю огромную разреженную матрицу с формой (количество статей, количество уникальных слов во всех заголовках) со значением tfidf для каждого слова.
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()
vector_titles = vectorizer.fit_transform(titles_processed)
Как мне преобразовать его в разреженную матрицу с 2 столбцами: article_id и tfidf_vector со списками tfidfs для каждого слова?
article_id tfidf_vector
0 [0, 0.5, 0.333, 0]
1 [0.71, 0, 0.13, 0]
... ...