Извлекает ли bs4 всю веб-страницу, даже если для ее просмотра требуется физическая прокрутка? - PullRequest
0 голосов
/ 14 сентября 2018

Я очень новичок в программировании, и я учусь на Python, также я прошу прощения, если нарушу какие-либо правила с этим постом.

Мой вопрос, как указано в заголовке, могу ли я получитьbs4 для загрузки всей веб-страницы, несмотря на то, что требуется физическая прокрутка для загрузки всех элементов?

Я обнаружил, что могу сделать это на Java, но я хотел бы сохранить его на Python, так как я до сих порочень плохо знаком с кодированием, и хотел бы сосредоточиться на одном языке в то время.

Это веб-страница, о которой идет речь: "https://www.ejendomstorvet.dk/investering/vestjylland/boligudlejning"

Я загрузил пример HTML-кодаздесь, где вы можете увидеть элементы, о которых идет речь: https://imgur.com/a/Ds0A6CF

Я не спрашиваю здесь о конкретном решении, просто некоторые указатели, какие функции в bs4 мне следует использовать для этого, или в качестве альтернативы, еслимне нужно сделать это через другую надстройку?

Заранее спасибо!

1 Ответ

0 голосов
/ 14 сентября 2018

BS4 загружает только HTML-код с введенного URL. Он не получает все страницы с сайта (но он, безусловно, может сделать это, если вы показываете URL-адреса, куда он должен идти, но это больше работа с Python, чем с BS4). И это также означает, что BS4 не удаляет JavaScript со страниц. Так что, если есть какой-либо контент, который загружен JavaScript / Ajax - BS4 не может справиться с этим. Так что, если вы в своем вопросе имеете в виду - если BS4 может анализировать простую длинную HTML-страницу с большим количеством элементов - ответ - Да , но если вы имеете в виду, может ли он анализировать загружаемые элементы с этой страницы - ответ будет Нет .

P.S. Если вам нужно удалить некоторые элементы JS с любой страницы - вы можете использовать на Scrapy или если вы хотите получить полный контроль над JS на любой странице, но гораздо сложнее - Selenium .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...