Мне удалось успешно запустить предварительно обученную модель TextSum (Tensorflow 1.2.1). Вывод состоит из резюме статей CNN и Dailymail (которые разбиты на части в формате bin перед тестированием).
Мне также удалось создать вышеупомянутые тестовые данные формата bin для статей CNN / Dailymail и файла vocab (согласно инструкциям здесь ). Однако я не могу создать свои собственные тестовые данные, чтобы проверить, насколько хороша сводка. Я попытался изменить код make_datafiles.py
, чтобы удалить закодированные значения. Я могу создавать токенизированные файлы, но следующий шаг кажется неудачным. Было бы здорово, если бы кто-нибудь помог мне понять, для чего используется url_lists
. Согласно GitHub readme -
" Для каждого из списков URL-адресов all_train.txt, all_val.txt и all_test.txt соответствующие токенизированные истории читаются из файла, в нижнем регистре и записываются в сериализованные двоичные файлы train.bin, val.bin и test .bin. Они будут помещены во вновь созданный каталог готовых файлов."
Как URL, такой как http://web.archive.org/web/20150401100102id_/http://www.cnn.com/2015/04/01/europe/france-germanwings-plane-crash-main/, сопоставляется с соответствующей историей в моей папке данных? Если кто-то имел успех с этим, пожалуйста, дайте мне знать, как это сделать. Заранее спасибо!