Если вы хотите сделать это в общем случае, когда ваши теги списка могут содержать любую допустимую разметку HTML, тогда awk
- неправильный инструмент. Подходящим инструментом для работы будет HTML-парсер, которому можно доверять, чтобы исправить все мелкие детали парсинга HTML, включая варианты HTML и искаженный HTML.
Если вы делаете это для особого случая, когда вы можете управлять форматированием HTML, тогда вы можете заставить awk
работать на вас. Например, предположим, что вы можете гарантировать, что каждый элемент списка никогда не занимает более одной строки, всегда оканчивается на </li>
в одной строке, никогда не содержит никакой разметки (например, список, содержащий список), тогда вы можете использовать awk
для этого, но вам нужно написать целую awk
программу, которая сначала находит строки, содержащие элементы списка, а затем использует другие команды awk
, чтобы найти только интересующую вас подстроку.
Но в целом, awk
не подходит для этой работы.