(Python) Как я могу вернуть строку байтов обратно в исходную строку? - PullRequest
0 голосов
/ 09 апреля 2019

Я анализировал веб-сайты и оказалось, что я сохранил контент в файлы json менее чем предпочтительным способом, и, похоже, не могу реконструировать процесс. В основном я сохранил теги BeautifulSoup следующим образом

r = requests.get(url).content
soup = BeautifulSoup(r, "html.parser")
article = soup.find("article")

b = article.encode()
c = str(b) 
# save c in json structure using json.dump(f)

и я хочу получить статью с.

Использование кодеков, казалось, почти привело меня туда:

import codecs
codecs.getdecoder("unicode_escape")(c)[0]

Однако скандинавские буквы å, ä, ö не декодируются должным образом.

Короче говоря:

Введите:

'b\'<article> \\n L\\xc3\\xa4s bl.a. om Gasporox nya m\\xc3\\xa4tkoncept f\\xc3\\xb6r tr\\xc3\\xa5g, en intervju med styrelseledamoten Per Nystr\\xc3\\xb6m och nyheter fr\\xc3\\xa5n GPX Medical om bland annat projekten Sinuslight och Neo-Lung.\\n</article>''

Желаемый вывод:

<article>
Läs bl.a. om Gasporox nya mätkoncept för tråg, en intervju med
styrelseledamoten Per Nyström och nyheter från GPX Medical om 
bland annat projekten Sinuslight och Neo-Lung.
</article> 

Заранее спасибо!

1 Ответ

1 голос
/ 09 апреля 2019

Вам необходимо оценить значение b'', а затем декодировать его с помощью UTF-8

import ast
x = "b\'<article> \\n L\\xc3\\xa4s bl.a. om Gasporox nya m\\xc3\\xa4tkoncept f\\xc3\\xb6r tr\\xc3\\xa5g, en intervju med styrelseledamoten Per Nystr\\xc3\\xb6m och nyheter fr\\xc3\\xa5n GPX Medical om bland annat projekten Sinuslight och Neo-Lung.\\n</article>'"

x = ast.literal_eval(x)

result = x.decode("utf-8")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...