Веб-скребковый раздел «Осмотреть» на веб-сайте RatemyProfоресурс - PullRequest
0 голосов
/ 30 августа 2018

Я относительно новичок в python и хотел посмотреть, есть ли какие-нибудь средства для удаления раздела «Проверка элементов» на сайте RatemyProf Professor. Моя цель - получить все удостоверения личности профессора, которые расположены только в этой области.

При попытке получить код я пытался ..

import requests

r = requests.get('http://www.ratemyprofessors.com/search.jsp?queryBy=schoolId&schoolName=California+State+University%2C+Northridge&schoolID=163&queryoption=TEACHER')

print (r.text)

Но, к сожалению, получил только информацию об исходной странице, которая не предоставляет идентификационную информацию. Идентификаторы расположены в разделе «Проверка элементов», и мне было интересно, есть ли специальная ссылка, которую я просто не вижу, которая помогла бы мне извлечь эти данные

Это для проекта колледжа, если кому-то было интересно, любые предложения помогут!

Еще раз спасибо!

UPDATE Спасибо за все отзывы, я действительно ценю это, но я все еще не понимаю логику того, как я смогу получить информацию об элементах по ссылке исходного кода

Здесь я поместил стрелки, указывающие на то, что я вижу, ссылка в моем "request.get" содержит код слева, и моя цель состоит в том, чтобы найти URL или что-то, чтобы можно было извлечь информация, которая находится справа.

Я действительно хочу понять, что происходит, и как правильно подойти к этому, если кто-то сможет объяснить мне процесс достижения этого, я был бы очень признателен.

Еще раз спасибо всем за участие, я действительно ценю это!

Ответы [ 2 ]

0 голосов
/ 04 сентября 2018

Только на голову: против моих профессоров - TOS - убрать данные со своего сайта. Вы можете отказаться от этого проекта.

0 голосов
/ 30 августа 2018

Я не тестировал, но вы можете использовать lib beautifulSoup для анализа hml-кода, а затем найти все div с классом 'result-list' и создать find_all со всем html-кодом 'li'. Теперь вы можете получить идентификатор этого li, разделить результат и получить последнюю позицию. Примерно так:

import requests
from bs4 import BeautifulSoup

r = requests.get('http://www.ratemyprofessors.com/search.jsp?queryBy=schoolId&schoolName=California+State+University%2C+Northridge&schoolID=163&queryoption=TEACHER')
page = BeautifulSoup(r.content, 'html.parser')
for divtag in soup.find_all('div', {'class': 'result-list'}):
    for litag in ultag.find_all('li'):
        print litag.text

Я не проверяю свой код, но логика такова.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...