Мне нужно удалить HTML из больших объемов текста.Было бы здорово, если бы я мог найти класс, который реализует java.io.Reader, который обернул бы другой Reader, и преобразовал бы текст так, чтобы пропустить все теги HTML (или, возможно, заменить их пробелами).Он должен быть в состоянии справиться с плохо сформированным HTML.
Производительность важна.Мне нужно обработать много гигабайт текста как можно быстрее.Обычный способ сделать это - прочитать мой HTML-код в строку, проанализировать его в дереве DOM и перебирать узлы, извлекающие текст по ходу работы.К сожалению, это слишком медленно.Я думаю, что реализация должна быть основана на каком-то низкоуровневом лексере.
Кто-нибудь знает библиотеку, которая может это сделать?