Как решить проблему с помощью Beautifulsoup с xml файлами с заголовком encode - PullRequest
0 голосов
/ 13 января 2020

У меня проблема с использованием Beautifulsoup в xml файлах с версией кодирования

У меня есть этот файл

<?xml version="1.0" encoding="UTF-8"?>

http://maven.apache.org/xsd/maven-4.0.0.xsd ">

<modelVersion>4.0.0</modelVersion>
<artifactId>project</artifactId>
<packaging>pom</packaging>.....</project>

И python код

for file in files:

print(dir + file)

infile = open( dir + file,"r")
contents = infile.read()
soup = BeautifulSoup(contents, features ="xml")
print(soup.prettify())

Результат печати:

<?xml version="1.0" encoding="utf-8"?>

Тег проекта игнорируется. Он просто происходит в файлах с кодировкой в ​​первой строке

1 Ответ

0 голосов
/ 13 января 2020
import requests
from bs4 import BeautifulSoup

r = requests.get("http://maven.apache.org/xsd/maven-4.0.0.xsd")

soup = BeautifulSoup(r.text, 'xml')


print(soup)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...