У меня есть документ, который был преобразован из PDF в HTML для использования на веб-сайте компании, на который можно ссылаться и индексировать для поиска.Я пытаюсь отформатировать преобразованный документ в соответствии с моими потребностями, и при этом я пытаюсь очистить некоторые ненужные файлы, которые были перенесены с того времени, когда это был PDF, например номера страниц, верхние и нижние колонтитулы.К счастью, все эти строки, которые нужно удалить, находятся в блоках по 4 строки, к сожалению, они не совсем одинаковы, поэтому не могут быть удалены с помощью простой замены букв.Строки содержат числа, которые являются инкрементными, поскольку они соотносятся со страницами.Как я могу удалить следующий пример из моего html-файла.
Title<br>
10<br>
<hr>
<A name=11></a>Footer<br>
Я пробовал много разных попыток регулярных выражений, но так как мои навыки в этой области ограничены, я не могу найти правильный синтаксис.Я уверен, что упускаю что-то довольно простое, так как, как мне кажется, все, что мне нужно, - это подстановочный знак для замены двух чисел в коде, а все остальное - буквальное.