как сохранить использование inte rnet от python веб-очистки - PullRequest
0 голосов
/ 02 апреля 2020

Я занимался сбором данных из интернета. Поэтому я использовал скребок в сети python с помощью селена и красивых soap. Но когда я загружаю 100 итераций веб-сайта для извлечения данных, это почти 500 МБ целого rnet. Будет ли загрузка сайта 5 Мб? Я был в замешательстве. Но нет фоновых запущенных приложений. Является ли это распространенной проблемой, есть ли какое-либо решение для уменьшения потребления inte rnet.

Я включил код, который я использовал, и он будет передан для n итераций:

url="https://shop.wegmans.com/search?search_term=Crosse%20&%20Blackwell%20Shrimp%20Sauce"
options = Options()
options.add_argument('--headless')
options.add_argument('--disable-gpu')

driver = webdriver.Chrome(executable_path="/home/aximsoft/giant/chromedriver", service_args=["--verbose", "--log-path=/home/aximsoft/giant/chromedata.log"])
driver.get(url)
time.sleep(10)
driver.find_element_by_id('shopping-selector-parent-process-modal-close-click').click()
time.sleep(2)
driver.find_element_by_css_selector('div.cell-image-wrapper').click()
time.sleep(1)
driver.find_element_by_id('tab-nutrition').click()
time.sleep(3)
page = driver.page_source
driver.find_element_by_class_name("modal-dismiss-background").click()
time.sleep(3)
driver.quit()
soup = BeautifulSoup(markup=page,features='html.parser')
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...