Понимание кодировок в HTML - PullRequest
2 голосов
/ 06 октября 2019

Я анализирую файл .html, используя BeautifulSoup4, выполняя следующие действия:

data = [item.text.strip() for item in soup.find_all('span')]

Код принимает все элементы в данной таблице и сохраняет их в data. Я заметил, что некоторые элементы в данных содержат тексты, которые выглядят как кодировка сущностей html. Элемент примера:

data[5] хранит 'CSCI-GA.1144-\u200b001'

текст, который я ожидал, был просто CSCI-GA.1144-001'

В html-файле я нахожу его как 'CSCI-GA.1144-​001'

Почему при анализе я вижу по-разному, когда я проверяю HTML-код? И как мне разобрать данные, чтобы они не учитывали эти кодировки? Есть ли способ исключить?

...