Я анализирую файл .html, используя BeautifulSoup4, выполняя следующие действия:
data = [item.text.strip() for item in soup.find_all('span')]
Код принимает все элементы в данной таблице и сохраняет их в data
. Я заметил, что некоторые элементы в данных содержат тексты, которые выглядят как кодировка сущностей html. Элемент примера:
data[5]
хранит 'CSCI-GA.1144-\u200b001'
текст, который я ожидал, был просто CSCI-GA.1144-001'
В html-файле я нахожу его как 'CSCI-GA.1144-​001'
Почему при анализе я вижу по-разному, когда я проверяю HTML-код? И как мне разобрать данные, чтобы они не учитывали эти кодировки? Есть ли способ исключить?