Получение сайта XML с использованием BeautifulSoup - PullRequest
0 голосов
/ 18 мая 2018

Мне нужно получить список ссылок из карты сайта.
Я использую приведенный ниже код и ничего не получаю обратно.Нет ошибокВ конечном счете, мне бы понравился лист Excel со списком.

import bs4
from lxml import etree #added as suggested
from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup
my_url = 'https://www.example.com/sitemap.xml'

uClient = uReq(my_url)

page_html = uClient.read()
uClient.close()

page_soup = soup(site, "lxml.xml") #added as suggested

evensite = page_soup.findAll("table", {"class":"td"})

print(evensite)

После изменения получена ошибка

Traceback (most recent call last):
File "/Users/user/Downloads/lxml.py", line 14, in <module>
page_soup = soup(site, "lxml.xml")
File "/anaconda3/lib/python3.6/site-packages/bs4/__init__.py", line 165, in __init__
% ",".join(features))
bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml.xml. Do you need to install a parser library?
[Finished in 1.3s]

1 Ответ

0 голосов
/ 18 мая 2018

Я не пробовал, но я не думаю, что вы можете проанализировать XML-файл с html.parser.Вы пробовали использовать

page_soup = soup(page_html, "lxml-xml")
evensite = page_soup.findAll("link")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...