Я предлагаю вам использовать Beautiful Soup для разбора HTML-кода на дерево тегов, а затем написать код Python, чтобы пройтись по дереву тегов и основного текста и перейти к регистру заголовков.Вы можете использовать регулярное выражение, чтобы сделать это, но в Python есть встроенный строковый метод, который сделает это:
"BUY FOOD".title() # returns "Buy Food"
Если вам нужен шаблон для сопоставления строк, которые являются заглавными, я предлагаю вам использовать:"[^a-z]*[A-Z][^a-z]*"
Это означает, что "соответствует нулю или большему количеству всего, кроме символа нижнего регистра, затем одного символа верхнего регистра, затем нуля или большего числа чего-либо, кроме символа нижнего регистра".
Этот шаблон будет правильно соответствовать, например, "КУПИТЬ 99 ПИВО".Он не будет соответствовать «очень тихому», потому что в нем нет даже одной буквы в верхнем регистре.
PS Вы можете фактически передать функцию в re.sub()
, чтобы вы могли потенциально выполнять сумасшедшую мощную обработку, если вам нужноЭто.В вашем случае я думаю, что метод Python .title()
сделает это за вас, но вот еще один ответ, который я опубликовал с информацией о передаче функции.
Как использовать заглавные буквы первой буквы каждого слова встрока (Python)?