Как подготовить тестовые данные для текстов? - PullRequest
0 голосов
/ 02 мая 2018

Мне удалось успешно запустить предварительно обученную модель TextSum (Tensorflow 1.2.1). Вывод состоит из резюме статей CNN и Dailymail (которые разбиты на части в формате bin перед тестированием).

Мне также удалось создать вышеупомянутые тестовые данные формата bin для статей CNN / Dailymail и файла vocab (согласно инструкциям здесь ). Однако я не могу создать свои собственные тестовые данные, чтобы проверить, насколько хороша сводка. Я попытался изменить код make_datafiles.py, чтобы удалить закодированные значения. Я могу создавать токенизированные файлы, но следующий шаг кажется неудачным. Было бы здорово, если бы кто-нибудь помог мне понять, для чего используется url_lists. Согласно GitHub readme -

" Для каждого из списков URL-адресов all_train.txt, all_val.txt и all_test.txt соответствующие токенизированные истории читаются из файла, в нижнем регистре и записываются в сериализованные двоичные файлы train.bin, val.bin и test .bin. Они будут помещены во вновь созданный каталог готовых файлов."

Как URL, такой как http://web.archive.org/web/20150401100102id_/http://www.cnn.com/2015/04/01/europe/france-germanwings-plane-crash-main/, сопоставляется с соответствующей историей в моей папке данных? Если кто-то имел успех с этим, пожалуйста, дайте мне знать, как это сделать. Заранее спасибо!

1 Ответ

0 голосов
/ 03 мая 2018

Обновление: мне удалось выяснить, как использовать собственные данные для создания bin-файлов для тестирования (и вообще не использовать url_lists).

Это будет полезно - https://github.com/dondon2475848/make_datafiles_for_pgn

Обновлю ответ, как только я выясню, как исправить для этого ROGUE.

...