Если разметка написана одинаково во всех файлах, sed
или perl
будет намного быстрее, чем BeautifulSoup или тому подобное, но также сложнее сделать гибкую с точки зрения различных способов выражения того же самого HTML-разметка в текстовом виде.
У вас есть более конкретный пример того, какую разметку вы ищете, и в идеале, как она может варьироваться от файла к файлу? Где в файле это будет? Кроме того, можно ли при необходимости оптимизировать или привести в порядок HTML-код?
О, а вы что-то запускаете на сервере (ах), или вам нужен код для паука на сервере, чтобы получить файлы HTML для обработки?