Библиотека Java для анализа HTML - PullRequest
0 голосов
/ 27 января 2010

(я видел подобные вопросы, но я думаю, что ни один из них не отвечает моим конкретным потребностям, следовательно ...)

Я хотел бы знать, существует ли библиотека Java для анализа реального HTML (читай: неполного, плохо сформированного) HTML. Под анализом я имею в виду такие вещи, как:

  • вычисление наиболее заметного цвета в фрагменте HTML
  • изменение этого цвета на какой-то другой цвет (следовательно, должно также поддерживаться изменение HTML)
  • убирая ненужные теги
  • исправление HTML для получения правильно сформированного фрагмента HTML

Части последних двух сделаны библиотеками, такими как Jericho и jTidy. «Плагины» поверх них были бы великолепны.

Заранее спасибо!

Ответы [ 4 ]

4 голосов
/ 27 января 2010

Вы можете проверить TagSoup:

http://home.ccil.org/~cowan/XML/tagsoup/

2 голосов
/ 27 января 2010

Ну, я бы сначала привел его в действительный XML, а затем с помощью XSLT сделал условное глубокое копирование, где я выполнял бы наиболее выдающийся цвет / обрезку / любую обработку, которая вам нужна.

1 голос
/ 27 января 2010

Посмотрите на JTidy , порт Java HTML Tidy .В зависимости от того, какие опции вы выберете, он будет исправлять некорректно сформированный HTML и иным образом очищать его.

0 голосов
/ 13 марта 2010

Может быть, вы найдете что-то в этом списке (попробуйте TagSoup, NekoHTML, VietSpider HTMLParser).

...