Доброе утро,
Я занимаюсь парсингом HTML в Python, и я наткнулся на следующее, которое представляет собой сочетание времени и имени в одной ячейке таблицы. Я пытаюсь извлечь каждую часть информации отдельно и пробовал несколько разных подходов для разделения следующей строки.
HTML String:
<span><strong>13:30</strong><br/>SecondWord</span></a>
My Мы надеемся, что вывод будет:
text1 = 13:30
text2 = "SecondWord"
Сейчас я использую al oop для всех строк в таблице, где я беру текст и разделяю его на новую строку. Я заметил, что у HTML есть символ разрыва строки между ними, поэтому он отображается отдельно в Интернете, я пытался заменить его новой строкой и запустить на нем свой разбиение - однако мои string.replace () и re.sub () подходы, похоже, не работают. Мне бы хотелось знать, что я делаю не так.
Последний подход:
resub_pat = r'<br/>'
rows=list()
for row in table.findAll("tr"):
a = re.sub(resub_pat,"\n",row.text).split("\n")
Это немного хешируется вместе, но я надеюсь, что уловил свою проблему! Мне не удалось найти подобных проблем.