Я бы настроил скрипт, который открывает только один HTML-файл, анализирует его с помощью надежного анализатора HTML (BeautifulSoup приходит на ум в качестве отличного примера), а затем обходит его одним из двух способов: в модели SAX, написание функций, представляющих цели для ваших правил перезаписи или в модели DOM, написание ваших правил в виде запросов XPath и выполнение действий с соответствующими узлами DOM.
Затем просто запустите скрипт для всех ваших HTML-файлов.