Попытка разбить набор данных на train
и test
, а затем нужно сохранить его в формате .txt
.
Вот код, пока что,
import pandas as pd
from sklearn.model_selection import train_test_split
category=pd.read_csv('dataset.tsv',delimiter='\t',encoding='utf-8')
train, test = train_test_split(category, test_size=0.2)
test.to_csv('checkme.txt')
Однако, когда я пытаюсь это сделать, выдает ошибку:
Traceback (последний вызов был последним): файл "splitter.py", строка 8, в test.to_csv ('checkme.tsv ') Файл "/home/abc/micro/micro/local/lib/python2.7/site-packages/pandas/core/frame.py", строка 1745, в файле to_csv formatter.save () "/ home /abc / micro / micro / local / lib / python2.7 / site-packages / pandas / io / format / csvs.py ", строка 171, в файле сохранения self._save ()" / home / abc / micro / micro /local / lib / python2.7 / site-packages / pandas / io / format / csvs.py ", строка 286, в файле _save self._save_chunk (start_i, end_i)" / home / abc / micro / micro / local / lib/python2.7/site-packages/pandas/io/formats/csvs.py ", строка 313, в _save_chunk self.cols, self.writer) Файл" pandas / _libs / writers.pyx ", строка 64, в пандах._libs.writers.write_csv_rows UnicodeEncodeError: кодек 'ascii' не может кодировать символ u '\ u026a' в положениина 111: порядковый номер не в диапазоне (128)
Что здесь возможно, и как это исправить?