Question

В настоящее время я настраиваю конвейер обработки данных, в котором ответы на опрос импортируются из базы данных. Некоторая часть импортированного контента находится в формате HTML, который мне нужно последовательно вырезать и преобразовать в обычный текст, но контент не на 100% согласован. В частности, специальные символы иногда не экранированы, и иногда я получаю их как экранированные коды HTML.

Я успешно использовал Beautifulsoup для достижения этой цели, но теперь я столкнулся с крайним случаем, когда амперсанд без экранирования загадочным образом удаляется. из кода.

Например, этот код:

BeautifulSoup('R&D', features="html.parser").get_text()

приводит к:

'RD'

что я ожидаю:

'R&D'

chitown88 · Answer 1 · 08 ноября 2019

с html.parser - In HTML, the ampersand character (“&”) declares the beginning of an entity reference (a special character). If you want one to appear in text on a web page you should use the encoded named entity “&”

Таким образом, когда он анализирует его без тегов / как сущность, он увидит это как ссылку на сущность:

html = 'R&D'
soup = BeautifulSoup(html, features="html.parser")

print (soup)

Так что выдает результатRD

Однако, если это содержимое / текст внутри тега, он распознает & как закодированный символ:

html = '<span>R&D</span>'
soup = BeautifulSoup(html, features="html.parser")

print (soup)

Вывод равен <span>R&D</span>, поэтому, когдавы делаете soup.text, он будет правильно отображать R&D

KunduK · Answer 2 · 08 ноября 2019

Используйте lxml вместо html.parser

soup=BeautifulSoup('R&D', features="lxml").get_text()
print(soup)

Beautifulsoup html parser иногда лишает простого символа амперсанда

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Beautifulsoup html parser иногда лишает простого символа амперсанда

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов