Я делаю текстовую кластеризацию различных новостных статей, используя кластеризацию k-средних. Я очистил данные от любых стоп-слов, знаков препинания, остановок и т. Д. Часть кластеризации прошла успешно.
Проблема, с которой я сталкиваюсь, заключается в том, что я хочу записать матрицу в виде текстового файла.
vectorizer = TfidfVectorizer(stop)
X = vectorizer.fit_transform(train_clean_sentences)
np.savetxt('E://csr.txt', X, delimiter=" ")
train_clean_sentences - это список предложений, которые я предварительно обработал и очистил, а X - это scipy.sparse.csr.csr_matrix
Этот код возвращает сообщение об ошибке:
np.savetxt ('E: //csr.txt', X, delimiter = "") Обратная трассировка (самая последняя
звоните последним):
Файл "", строка 2, в
np.savetxt ('E: //csr.txt', X, delimiter = "")
Файл "C: \ Anaconda3 \ lib \ site-packages \ numpy \ lib \ npyio.py", строка 1308,
в savetxt
fh = np.lib._datasource.open (fname, 'wt', encoding = encoding)
Файл "C: \ Anaconda3 \ lib \ site-packages \ numpy \ lib_datasource.py", строка
260, в открытом
return ds.open (путь, режим, кодировка = кодировка, новая строка = новая строка)
Файл "C: \ Anaconda3 \ lib \ site-packages \ numpy \ lib_datasource.py", строка
605, в открытом
поднять ValueError («URL не доступны для записи»)
ValueError: URL-адреса недоступны для записи
Я убедился, что преобразуемый текст не содержит URL-адресов, поскольку пунктуация удалена.
Выходной текстовый файл должен выглядеть примерно так:
где каждая строка будет показывать расстояние скопления этого центроида от других центроидов в скоплении.