Я довольно новичок в программировании, и мне нужно техническое пояснение к приведенным ниже вопросам.
Прежде всего, хотя я скромно знаю, как справляться с "Beautiful Soup" и "Selenium", я бы хотелответы опытных пользователей, которые действительно трудно вытащить из Интернета или текстов.
Я могу получить данные с веб-сайта, открыв страницу с помощью селена, а затем получив page.source для анализа с помощью Beautiful soup.Красивый суп, сам по себе, не дает HTML-код страницы, вместо этого он предоставляет исходный код всего сайта, который не включает желаемый HTML-код конкретной страницы, даже если ссылка непосредственно на эту страницу!
1) Есть ли способ получить ресурс page_source без селена, но только Beautiful Soup?
2) Можно ли использовать селен, не открывая соответствующую страницу?(например, есть эквивалент .get ('http ..'), который физически не откроет ссылку! Я нахожу это кошмаром, если иметь дело с> 300 ссылками !!!!!)
2) Есть ли другой более эффективный способ сделать это?
Код, с которым я сейчас работаю:
import requests
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium import webdriver
import os
from selenium.webdriver import chrome
driver = webdriver.Chrome(executable_path=r'C:chromedriver.exe')
url= "https.."
driver.get(url)
driver.implicitly_wait(10)
soup = BeautifulSoup(driver.page_source,"lxml")
print(soup.text)
Спасибо всем заранее.