не может разбить большой .txt файл на обучающие, тестовые и проверочные части для глубокого текстового корректора - PullRequest
2 голосов
/ 25 апреля 2019

У меня есть один большой файл .txt, и я хочу разделить его на наборы для обучения, тестирования и проверки. ниже приведены строки кода, где я хочу использовать эти мухи. Я не понимаю, как это сделать.

python correct_text.py --train_path 
                        /movie_dialog_train.txt \
                       --val_path /movie_dialog_val.txt \
                       --config DefaultMovieDialogConfig \
                       --data_reader_type MovieDialogReader \
                       --model_path /movie_dialog_model

1 Ответ

1 голос
/ 25 апреля 2019

Вы можете загрузить большой файл в Pandas DataFrame (скажем, df ), используя метод pd.from_csv(). После этого вы можете разделить информационный кадр на Train ( df_train ) и Test.( df_val )

Теперь вы можете использовать pd.to_csv() два раза и передавать имена файлов в качестве параметра функции для создания текстовых файлов movie_dialog_train.txt и movie_dialog_val.txt

Вы можете создать небольшой скрипт Python только для этого и запустить его так, чтобы ваши файлы поездов и валидации присутствовали до того, как вы фактически запустите код.

...