ОК, есть много HTML / XML-парсеров для Java. То, что я хочу сделать, это нечто большее, чем просто знать, как его анализировать. Я хочу отфильтровать содержимое и получить его в подходящей форме.
Точнее, я хочу сохранить только текст и изображения. Тем не менее, я хочу также сохранить некоторые параметры форматирования текста, например: курсив, полужирный шрифт, выравнивание и т. Д.
Все это по той причине, что я пытаюсь реализовать конвертер, который преобразует HTML в определенный формат, который я создал сам для своих собственных целей.
Есть идеи? Конечно, это должно было быть сделано много раз прежде.