Question

(я видел подобные вопросы, но я думаю, что ни один из них не отвечает моим конкретным потребностям, следовательно ...)

Я хотел бы знать, существует ли библиотека Java для анализа реального HTML (читай: неполного, плохо сформированного) HTML. Под анализом я имею в виду такие вещи, как:

вычисление наиболее заметного цвета в фрагменте HTML
изменение этого цвета на какой-то другой цвет (следовательно, должно также поддерживаться изменение HTML)
убирая ненужные теги
исправление HTML для получения правильно сформированного фрагмента HTML

Части последних двух сделаны библиотеками, такими как Jericho и jTidy. «Плагины» поверх них были бы великолепны.

Заранее спасибо!

Igor Nadj · Answer 1 · 27 января 2010

Ну, я бы сначала привел его в действительный XML, а затем с помощью XSLT сделал условное глубокое копирование, где я выполнял бы наиболее выдающийся цвет / обрезку / любую обработку, которая вам нужна.

cletus · Answer 2 · 27 января 2010

Посмотрите на JTidy , порт Java HTML Tidy .В зависимости от того, какие опции вы выберете, он будет исправлять некорректно сформированный HTML и иным образом очищать его.

dma_k · Answer 3 · 13 марта 2010

Может быть, вы найдете что-то в этом списке (попробуйте TagSoup, NekoHTML, VietSpider HTMLParser).

Библиотека Java для анализа HTML

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Библиотека Java для анализа HTML

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы