Разобрать htmltags из строки java / gwt - PullRequest
0 голосов
/ 12 июля 2011

Эй, я хочу проанализировать некоторые данные из html, которые мне отправляют, в строку. Я данные, которые я хочу, находится в верхнем регистре, и я назову это DATAx здесь. Длина данных произвольна.

http://pastebin.mozilla.org/1270216

есть еще много подобных строк, которые я должен разобрать.

спасибо за ответы!

Ответы [ 2 ]

2 голосов
/ 12 июля 2011

Мне очень повезло с jsoup . Он использует селектор dom-узлов в стиле jQuery и может работать с фрагментами HTML, даже очень плохо отформатированными.

0 голосов
/ 12 июля 2011

Я не знаю о jsoup, но TagSoup - фантастическая библиотека для разбора HTML. У меня это было в производственной системе в течение нескольких лет, которая работала с десятками тысяч (по крайней мере) веб-страниц в дикой природе, и у нас никогда не было ни одного отказа от TagSoup. Он обрабатывает даже самый ужасно отформатированный HTML, какой только можно представить.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...