парсинг html: find_all возвращает объект без типа - PullRequest
0 голосов
/ 27 апреля 2020

Я пытаюсь создать эту таблицу (показано ниже). На сайте требуются имя пользователя и пароль, которые я предоставил. Я считаю, что мой код не работает, потому что я не правильно аутентифицировал себя. Я думаю, это потому, что возвращенный мне объект супа не содержит моего имени пользователя или пароля. Я очень плохо знаком с веб-соскоб. Идеальная методология: l oop через "tbody" и добавьте каждый элемент "tr" в теле. (как показано в инструментах разработчика, рисунок представлен ниже). Проблема: мой красивый суповой объект не имеет той же структуры или элементов, что и код в «инструментах разработчика». Фактически, мой суповой объект не содержит ничего "tbody" или "tr".
Разве мой суповой объект не должен отражать то, что я вижу в developerTools? в чем проблема?

url = "https://d2.schoolName.edu/d2/lms/dropbox/user/folders_list.d2?ou=475011&isprv=0"
s = requests.Session()
login_data = {"userName":"username", "password":"pass"}
resp = requests.post("https://d2.schoolName.edu/d2/login?login=1", login_data)
s.auth = ("username", "pass")
s.headers.update({"x-test": "true"})
# both "x-test" and "x-test2" are sent
s.get("https://d2.schoolName.edu/d2/lms/dropbox/user/folders_list.d2?ou=475011&isprv=0", headers={"x-test2": "true"})
page = requests.get(url)
requests.get(url, auth=HTTPBasicAuth("username", "pass"))
soup = BeautifulSoup(page.content, "lxml")
table = soup.find_all("table", id = "z_b")

вот мой суповый объект:

image

this is the table I want to extract this is the DOC for the webpage

...