Красивый суп или селен? - PullRequest
       33

Красивый суп или селен?

0 голосов
/ 24 сентября 2019

Я довольно новичок в программировании, и мне нужно техническое пояснение к приведенным ниже вопросам.

Прежде всего, хотя я скромно знаю, как справляться с "Beautiful Soup" и "Selenium", я бы хотелответы опытных пользователей, которые действительно трудно вытащить из Интернета или текстов.

Я могу получить данные с веб-сайта, открыв страницу с помощью селена, а затем получив page.source для анализа с помощью Beautiful soup.Красивый суп, сам по себе, не дает HTML-код страницы, вместо этого он предоставляет исходный код всего сайта, который не включает желаемый HTML-код конкретной страницы, даже если ссылка непосредственно на эту страницу!

1) Есть ли способ получить ресурс page_source без селена, но только Beautiful Soup?

2) Можно ли использовать селен, не открывая соответствующую страницу?(например, есть эквивалент .get ('http ..'), который физически не откроет ссылку! Я нахожу это кошмаром, если иметь дело с> 300 ссылками !!!!!)

2) Есть ли другой более эффективный способ сделать это?

Код, с которым я сейчас работаю:

import requests
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium import webdriver
import os
from selenium.webdriver import chrome



driver = webdriver.Chrome(executable_path=r'C:chromedriver.exe')


url= "https.."
driver.get(url) 
driver.implicitly_wait(10)

soup = BeautifulSoup(driver.page_source,"lxml")
print(soup.text) 

Спасибо всем заранее.

...