Когда я выбираю 20newsgroups_vectorized
данные по
newsgroups = fetch_20newsgroups_vectorized(subset='all')
labels = newsgroups.target_names
target = newsgroups.target
target = pd.DataFrame([labels[i] for i in target], columns=['label'])
data = newsgroups.data
data
, это <class 'scipy.sparse.csr.csr_matrix'>
с формой (18846, 130107)
Как я могу поднастроить данные по именам целей ( например, извлечь только 'rec.sport.baseball'
) и использовать векторные операции с этими разреженными векторами строк (например, вычислить средний вектор или расстояния)?