У меня есть два файла CSV, которые я использую следующий синтаксис для разделения на обучающий набор, набор тестов и набор проверки.
X_train, y_train,X_val, y_val = iterative_train_test_split(X_data, y_data,test_size=0.2)
X_train, y_train,X_test, y_test = iterative_train_test_split(X_train, y_train,test_size=0.25)
Первый CSV-файл имеет следующий формат:
Второй CSV-файл имеет следующий формат:
Как видно, первый файл состоит из токенизированных предложений, а 2-й файл состоит из связанных с ним меток.
Теперь я хочу создать отдельные csv-файлы для X_train, y_Train, X_val, y_val, X_test, y_test с данными.
Итак, как я могу разделить исходные данные, то есть тексты и метки, на 3 отдельных файла (обучать, проверять и проверять)? и обратите внимание, что я хочу, чтобы тексты в этих CSV-файлах не были массивами numpy, потому что iterative_train_test_split преобразует данные в массивы n-мерных массивов