Question

Я ненавижу монополизировать этот форум, но в начале много вопросов ...

Нормально ли для JSoup правильно обрабатывать только часть (определенно менее 50%) HTML-страниц, найденных в Интернете, и обнаруживать в них новые URL? Это то, что происходит с моим начальным файлом, и это расстраивает.

Или есть лучшие парсеры, которые я мог бы использовать?

Привет

Julien Nioche · Answer 1 · 10 июля 2019

Проверьте значение http.content.limit . Возможно, вы получаете частичные результаты, потому что документы усечены.

РЕДАКТИРОВАТЬ: возможно, попробуйте DebugParseFilter , чтобы посмотреть, как выглядит DOM, сгенерированный JSoup. Как предположил Себастьян, это может быть связано с JS.

JSoup правильно обрабатывает только часть HTML-страниц

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

JSoup правильно обрабатывает только часть HTML-страниц

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы