Непоследовательные результаты прекрасного супа? - PullRequest
0 голосов
/ 06 сентября 2018

Итак, я очищаю веб-сайт, и, хотя я могу вернуть html веб-страницы, прекрасные результаты поиска являются противоречивыми. Во время выполнения поиска одной и той же страницы снова и снова BS4 иногда может найти определенный тег, а иногда нет.

Я протестировал len веб-страницы, и когда Beautiful soup смог найти нужные теги, len было 9220189 (правильный размер), а когда не удалось, 103557968. Я напечатал веб-страницу на обоих размерах, и они соответствуют. Фактически, искомая строка может быть найдена в обеих распечатках веб-страницы.

Может ли это быть ограничением размера красивого супа? Я не уверен, что происходит?

EDIT: ссылка на сайт: https://www.brenda -enzymes.org / ligand.php? Brenda_ligand_id = 1

что я ищу: soup.find (string = 'Molecular Formula')

Иногда эту строку можно найти, а иногда нет. Текст всегда находится на веб-странице и не загружается с помощью JavaScript.

1 Ответ

0 голосов
/ 11 сентября 2018

Я решил это, уменьшив размер HTML. Хотя я не могу найти лучшего решения, это нужно сделать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...