пытаясь удалить ссылки, но не используя Python Beautifulsoup - PullRequest
0 голосов
/ 15 января 2019

пытается сканировать ссылки компании, но не может ее удалить.

Я получаю ссылки до страницы 9, но на странице № 10 впоследствии не получаю ссылки компании, вместо этого я получаю ссылки категории.

from bs4 import BeautifulSoup

import requests

source = requests.get('https://ieema.org/ieema-members/page/10/',headers={'User-Agent': 'Googlebot'}).text

soup = BeautifulSoup(source,'lxml')

for data in soup.find_all('a',class_='item'):

         print(data['href'])

Пожалуйста, помогите мне разобраться с этой проблемой.

1 Ответ

0 голосов
/ 15 января 2019

"Заголовок запроса User-Agent содержит характеристическую строку, которая позволяет одноранговым сетевым протоколам идентифицировать тип приложения, операционную систему, поставщика программного обеспечения или версию программного обеспечения запрашивающего программного агента пользователя. Проверка заголовка User-Agent на стороне сервера обычная операция, поэтому обязательно используйте действующую строку User-Agent браузера, чтобы избежать блокировки. "

Источник

изменить заголовки с:

headers={'User-Agent': 'Googlebot'}

до:

headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}

Пример:

from bs4 import BeautifulSoup

import requests

source = requests.get('https://ieema.org/ieema-members/page/10/',headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}).text

soup = BeautifulSoup(source,'lxml')

for data in soup.find_all('a',class_='item'):

         print(data['href'])
...