Можете ли вы помочь мне в разделении списка текстов? - PullRequest
0 голосов
/ 02 мая 2020

Я работал над учебной нейронной сетью и сейчас пытаюсь классифицировать новостные статьи. Проблема в том, что мне нужно разделить мои тексты на наборы данных обучения и тестирования, но я не могу найти способ сделать это.

Например, на моем примере веб-сайта тексты названы так: cv100.txt, cv203.txt, cv900.txt и так далее. Поэтому автор использует следующий код для разделения этих тестов на 9: 1.

if filename.startswith('cv9'): и if not filename.startswith('cv9'):

Однако для другой задачи, над которой я сейчас работаю, имена файлов текстов перечислены следующим образом: 0000Data, 0001Data, ..., 0299Data.

Что мне нужно сделать, это иметь тексты от 0000Data до 0200Data в качестве набора данных поезда и от 0200Data до 0299Data в качестве тестовый набор данных.

Но я понял, что это не работает с методом filename.startswith(''). В итоге имена файлов, такие как cv000 ~ cv999, можно разделить на 9: 1 на filename.startswith('cv9'), но я хочу разделить имена файлов, такие как 0000Data ~ 0299Data, на 1: 2. Однако я не могу придумать умного способа разделить их.

Должен быть хороший способ понять это, но я не могу об этом думать, хотя я много искал и много думал.

1 Ответ

0 голосов
/ 02 мая 2020

Если ваша книга называется "Углубленное обучение для обработки естественного языка. Разработайте модели глубокого обучения естественному языку в Python" и , охватывающие один и тот же , то вы просто упустили правильный набор данных.

Исходный набор данных можно скачать по ссылке http://www.cs.cornell.edu/people/pabo/movie-review-data/review_polarity.tar.gz, он содержит точно то же, что вы описали.

review_polarity tree
.
├── poldata.README.2.0.md
└── txt_sentoken
    ├── neg
    │   ├── cv000_29416.txt
    │   ├── cv001_19502.txt
    │   ├── cv002_17424.txt
  [...]
    │   ├── cv997_5152.txt
    │   ├── cv998_15691.txt
    │   └── cv999_14636.txt
    └── pos
        ├── cv000_29590.txt
        ├── cv001_18431.txt
        ├── cv002_15918.txt
      [...]
        ├── cv003_11664.txt
        ├── cv004_11636.txt
        ├── cv005_29443.txt
...