Итак, мой входной файл - это большой файл, содержащий список в списке. У этого есть тысячи рядов. Каждое значение в списке равно 0 или 1. Существует также еще один столбец, в котором указано значение, связанное с каждым списком. Однако после передачи моих данных через pands train_test_split концы вложенного списка кажутся отделенными от остальной части списка.
Я пытался использовать функции pandas.read_csv и scikit train_test_split, но это не помогло решить проблему.
Я также попытался использовать параметр dtype в pandas.read_csv, однако это тоже не сработало.
data = pandas.read_csv('file_to_be_read', sep=',',)
X_train, X_test = train_test_split(data, test_size = 0.3, random_state = 42)
Входной файл:
[[0,0,0,0,1,0,0,0,0,0], [0,1,0,0,0,0,0,0,0,0] ..., [0 , 0,0,0,0,0,0,0,1,0]] 4,567645
Результирующий вывод:
[[0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0]... [0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0] 4.567645
Желаемый вывод:
[[0,0,0,0,1,0,0,0,0,0], [0,1,0,0,0,0,0,0,0,0] ..., [0,0,0,0,0,0,0,0,1,0]] 4.567645
По сути, я просто хочу взять случайные строки данных из исходного файла и поместить их в другой файл.