У меня есть этот проект по очистке данных с сайта SE C Edgar. Частично задача состоит в том, чтобы получить основную часть всей документации, и сегодня я как раз тестировал некоторые из них.
Я наткнулся на довольно большую документацию (https://www.sec.gov/Archives/edgar/data/355437/000119312520189547/0001193125-20-189547.txt), которая примерно 110 мегабайт
Я разбивал пакет на составляющие узлы и обрабатывал их по-разному, в зависимости от значения узла FILENAME. Для типов, основанных на html / xml, я просто использовал
SgmlReader.ReadInnerXml();
, чтобы захватить внутренности, но в этом большом файле он выглядит как go в этом бесконечном l oop. Он работал 15 минут, прежде чем я взломал отладчик, и он завис на этом вызове.
Кто-нибудь сталкивался с этим раньше?
Я использую SqmlReader 1.8.16.
Я видел очень старый комментарий на странице журнала изменений, в котором говорилось, что была такая ошибка с неправильно завершенными html комментариями, но она была отмечена как исправленная в большом количестве выпусков go.
Спасибо