HTML слишком сложен для понимания любым парсером. Сначала необходимо преобразовать это в достаточно близкий формат XML (для хорошо подобранных тегов, которые совпадают), например XHTML, с помощью программы, подобной tidy (http://tidy.sourceforge.net/).
Затем вы можете использовать синтаксический анализатор XML / XHTML для анализа правильно сформированного XML. Обратите внимание, что вам придется обрабатывать данные на основе стилей шрифтов и преобразовывать теги на основе стилей шрифтов во множество раз.
Вот что вы можете сделать при разборе
start TR element
--Create Array
start b element
-- Add One time
end b element
start b element
-- Add second time
end b element
end TR element