Я думаю, что методология заключается не в удалении HTML-кода со страницы, а в определении стандартных шаблонов для данных, которые вы пытаетесь захватить. Это методология типа Perl / регулярных выражений.
Примером могут служить некоторые данные или таблица, которые идут через столько символов после изображения логотипа. Вы можете написать скрипт для хранения только данных.
Если вы хотите опубликовать какой-нибудь html, возможно, мы поможем расшифровать его.