ValueError: URL-адреса недоступны для записи (np.savetext) - PullRequest
0 голосов
/ 05 января 2019

Я делаю текстовую кластеризацию различных новостных статей, используя кластеризацию k-средних. Я очистил данные от любых стоп-слов, знаков препинания, остановок и т. Д. Часть кластеризации прошла успешно. Проблема, с которой я сталкиваюсь, заключается в том, что я хочу записать матрицу в виде текстового файла.

vectorizer = TfidfVectorizer(stop)
X = vectorizer.fit_transform(train_clean_sentences)   
np.savetxt('E://csr.txt', X, delimiter=" ")

train_clean_sentences - это список предложений, которые я предварительно обработал и очистил, а X - это scipy.sparse.csr.csr_matrix

Этот код возвращает сообщение об ошибке:

np.savetxt ('E: //csr.txt', X, delimiter = "") Обратная трассировка (самая последняя звоните последним):

Файл "", строка 2, в np.savetxt ('E: //csr.txt', X, delimiter = "")

Файл "C: \ Anaconda3 \ lib \ site-packages \ numpy \ lib \ npyio.py", строка 1308, в savetxt fh = np.lib._datasource.open (fname, 'wt', encoding = encoding)

Файл "C: \ Anaconda3 \ lib \ site-packages \ numpy \ lib_datasource.py", строка 260, в открытом return ds.open (путь, режим, кодировка = кодировка, новая строка = новая строка)

Файл "C: \ Anaconda3 \ lib \ site-packages \ numpy \ lib_datasource.py", строка 605, в открытом поднять ValueError («URL не доступны для записи»)

ValueError: URL-адреса недоступны для записи

Я убедился, что преобразуемый текст не содержит URL-адресов, поскольку пунктуация удалена.

Выходной текстовый файл должен выглядеть примерно так: Output txt file

где каждая строка будет показывать расстояние скопления этого центроида от других центроидов в скоплении.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...