JSoup правильно обрабатывает только часть HTML-страниц - PullRequest
0 голосов
/ 09 июля 2019

Я ненавижу монополизировать этот форум, но в начале много вопросов ...

Нормально ли для JSoup правильно обрабатывать только часть (определенно менее 50%) HTML-страниц, найденных в Интернете, и обнаруживать в них новые URL? Это то, что происходит с моим начальным файлом, и это расстраивает.

Или есть лучшие парсеры, которые я мог бы использовать?

Привет

1 Ответ

1 голос
/ 10 июля 2019

Проверьте значение http.content.limit . Возможно, вы получаете частичные результаты, потому что документы усечены.

РЕДАКТИРОВАТЬ: возможно, попробуйте DebugParseFilter , чтобы посмотреть, как выглядит DOM, сгенерированный JSoup. Как предположил Себастьян, это может быть связано с JS.

...