У меня есть набор данных, который имеет комбинацию как текстового, так и числового значения.Я хочу сгруппировать свои данные, и ниже приведен пример набора данных.Я использую pandas и scikit-learn.
all_text,amount
Check Sample row 1,-1154
Check Sample row 2,-1154
Приведенные выше строки имеют одно значение как текстовое, а другое числовое.Я взял столбец с текстом и преобразовал его, используя TF-IDF.
vect =
TfidfVectorizer(ngram_range=(1,1),stop_words='english',max_features=1000)
td_matrix = vect.fit_transform(data['all_text'])
data['all_text'] = list(td_matrix)
# Calculating the distance measure derived from cosine similarity
dbscan = DBSCAN(eps=0.5, min_samples= 10)
dbscan.fit(data)
Когда я пытаюсь создать новый фрейм данных с помощью td_matrix и подогнать данные, он выдает следующую ошибку.
array = array.astype(np.float64)
ValueError: setting an array element with a sequence.
Как мне объединить матрицу tf-idf с числовым столбцом, чтобы я мог запустить алгоритм кластеризации?