Я работал над учебной нейронной сетью и сейчас пытаюсь классифицировать новостные статьи. Проблема в том, что мне нужно разделить мои тексты на наборы данных обучения и тестирования, но я не могу найти способ сделать это.
Например, на моем примере веб-сайта тексты названы так: cv100.txt, cv203.txt, cv900.txt
и так далее. Поэтому автор использует следующий код для разделения этих тестов на 9: 1.
if filename.startswith('cv9'):
и if not filename.startswith('cv9'):
Однако для другой задачи, над которой я сейчас работаю, имена файлов текстов перечислены следующим образом: 0000Data, 0001Data, ..., 0299Data
.
Что мне нужно сделать, это иметь тексты от 0000Data
до 0200Data
в качестве набора данных поезда и от 0200Data
до 0299Data
в качестве тестовый набор данных.
Но я понял, что это не работает с методом filename.startswith('')
. В итоге имена файлов, такие как cv000
~ cv999
, можно разделить на 9: 1 на filename.startswith('cv9')
, но я хочу разделить имена файлов, такие как 0000Data
~ 0299Data
, на 1: 2. Однако я не могу придумать умного способа разделить их.
Должен быть хороший способ понять это, но я не могу об этом думать, хотя я много искал и много думал.