Как разделить файлы на обучающие и тестовые наборы данных, а затем создать для них разные CSV-файлы? - PullRequest
0 голосов
/ 27 июня 2019

У меня есть два файла CSV, которые я использую следующий синтаксис для разделения на обучающий набор, набор тестов и набор проверки.

X_train, y_train,X_val, y_val = iterative_train_test_split(X_data, y_data,test_size=0.2)

X_train, y_train,X_test, y_test = iterative_train_test_split(X_train, y_train,test_size=0.25)

Первый CSV-файл имеет следующий формат:

Tokenized Training sentences

Второй CSV-файл имеет следующий формат:

label for tokenized data

Как видно, первый файл состоит из токенизированных предложений, а 2-й файл состоит из связанных с ним меток.

Теперь я хочу создать отдельные csv-файлы для X_train, y_Train, X_val, y_val, X_test, y_test с данными.

Итак, как я могу разделить исходные данные, то есть тексты и метки, на 3 отдельных файла (обучать, проверять и проверять)? и обратите внимание, что я хочу, чтобы тексты в этих CSV-файлах не были массивами numpy, потому что iterative_train_test_split преобразует данные в массивы n-мерных массивов

...