У кого-нибудь есть опыт по этому поводу?
Вы можете сначала получить все элементы DOM, а затем удалить их содержимое и атрибуты. После удаления содержимого вы можете преобразовать все теги в нижний или верхний регистр, а затем использовать любой из известных алгоритмов сопоставления строк, например согласование строк Кнута-Морриса-Пратта