Соскоб с использованием python создает пустой массив - PullRequest
0 голосов
/ 18 апреля 2020
import requests
from bs4 import  BeautifulSoup as soup

my_url='http://cvr.ac.in/home4/index.php/eee-sp-870859316/eeefaculty'
page=requests.get(my_url)
data=page.text
page_soup=soup(data,'html.parser')
cont=page_soup.select("div",{"class": "item-page"})
print(cont)

Я пытаюсь записать название, название, профиль факультета в файл CSV. когда я использую приведенный выше код, он выбрасывает пустой []. любая помощь с благодарностью.

1 Ответ

0 голосов
/ 18 апреля 2020

Страница ищет любой из определенного набора допустимых пользовательских агентов. Например,

import requests
from bs4 import BeautifulSoup as bs

r = requests.get('http://cvr.ac.in/home4/index.php/eee-sp-870859316/eeefaculty', headers = {'User-Agent': 'Chrome/80.0.3987.163'})
soup = bs(r.content, 'lxml')
print(soup.select('.item-page'))

Без этого вы получите ответ 406, а классы, которые вы ищете в html, отсутствуют.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...