Я занимаюсь синтаксическим анализом html, который в настоящее время находится в байтовой форме, преобразовав его в строку, а затем записав в список. Я хочу удалить все косые черты (или даже просто красиво обработать escape-символы).
Вот мой код:
picture_divs = [b'<img alt="Python\'s Confusing me." class="" src="https://link_goes_here" style="whatever;"/>']
def get_alt_text(picture_divs):
alt_text = []
for i, elem in enumerate(picture_divs):
str_elem = str(elem).replace('\\', '') # Convert bytes -> strings
start_index = int(str_elem.find('alt='))
end_index = int(str_elem.find('class='))
alt_text.append(str_elem[start_index + 4:end_index])
return alt_text
alt_text_return = get_alt_text(picture_divs)
print(alt_text_return)
Вывод: ['' Python \ 's Confusion me.' ']
Требуемый вывод: [' "Python s Confusion me." «]