Так что я все еще работаю над этим парсером.Сегодня я нашел документ с тегом <st1:place w:st="on">
. Google сообщает, что это смарт-тег Microsoft Office.
Я хотел бы избавиться от этих вещей, но я не могу найти список того, чем они являются или сколько их существует?
Если они все будут следовать шаблону <...:...>
, это будетЛегко удалить с помощью регулярных выражений.
Документ не имеет типа документа и расширения .jsp, но все содержимое находится между двумя тегами <html>
, и, как бы ни был нестандартен зверь, мне все равно нужно разобратьэто.
Хорошо, это на самом деле не большая проблема, но это отбрасывает мое форматирование и вызывает меня.