(я видел подобные вопросы, но я думаю, что ни один из них не отвечает моим конкретным потребностям, следовательно ...)
Я хотел бы знать, существует ли библиотека Java для анализа реального HTML (читай: неполного, плохо сформированного) HTML. Под анализом я имею в виду такие вещи, как:
- вычисление наиболее заметного цвета в фрагменте HTML
- изменение этого цвета на какой-то другой цвет (следовательно, должно также поддерживаться изменение HTML)
- убирая ненужные теги
- исправление HTML для получения правильно сформированного фрагмента HTML
Части последних двух сделаны библиотеками, такими как Jericho и jTidy. «Плагины» поверх них были бы великолепны.
Заранее спасибо!