Я пытаюсь прочитать gzipped XML карту сайта на pandas. Запросы должны иметь возможность обрабатывать gzip автоматически, и в заголовках gzip обнаруживается, но с gzip он не работает, показывая «не правильно сформирован (неверный токен): строка 1, столбец 0», но карта сайта выглядит хорошо для меня?
import requests
import pandas as pd
import xmltodict
import numpy as np
url = "https://www.blick.ch/article.xml"
res = requests.get(url)
raw = xmltodict.parse(res.text)
dfAllLocs = pd.DataFrame({'loc': []})
for r in raw["sitemapindex"]["sitemap"]:
#try:
print(r["loc"])
resSingle = requests.get(r["loc"])
#print(resSingle.headers)
rawSingle = xmltodict.parse(resSingle.text, encoding='utf-8')
dataSingle = [[rSingle["loc"]] for rSingle in rawSingle["urlset"]["url"]]
dfSingle = pd.DataFrame(dataSingle, columns=["loc"])
dfAllLocs = pd.concat([dfAllLocs,dfSingle])
print(len(dfAllLocs))
#except:
# print("something went wrong at: " + r["loc"])