Почему бы просто не проанализировать страницу, убедившись, что вы превратили ее в дерево DOM, а затем просто пройтись по элементам, извлекая соответствующие значения, которые вам нужны, и, возможно, любые атрибуты, которые вы считаете необходимыми.
Если вы написали html-файлы, они должны быть правильно сформированы, так что это будет легко.