SgmlReader бесконечный l oop на большом документе? - PullRequest
0 голосов
/ 11 июля 2020

У меня есть этот проект по очистке данных с сайта SE C Edgar. Частично задача состоит в том, чтобы получить основную часть всей документации, и сегодня я как раз тестировал некоторые из них.

Я наткнулся на довольно большую документацию (https://www.sec.gov/Archives/edgar/data/355437/000119312520189547/0001193125-20-189547.txt), которая примерно 110 мегабайт

Я разбивал пакет на составляющие узлы и обрабатывал их по-разному, в зависимости от значения узла FILENAME. Для типов, основанных на html / xml, я просто использовал

SgmlReader.ReadInnerXml();

, чтобы захватить внутренности, но в этом большом файле он выглядит как go в этом бесконечном l oop. Он работал 15 минут, прежде чем я взломал отладчик, и он завис на этом вызове.

Кто-нибудь сталкивался с этим раньше?

Я использую SqmlReader 1.8.16.

Я видел очень старый комментарий на странице журнала изменений, в котором говорилось, что была такая ошибка с неправильно завершенными html комментариями, но она была отмечена как исправленная в большом количестве выпусков go.

Спасибо

...