Я ищу метод для анализа HTML (или Markdown, но я могу преобразовать это в HTML) в обычный текст, но затем определить, какие теги применяются для каждого символа по очереди.
Итак, дляНапример, если бы у меня был следующий HTML:
<p>Hello <em>world</em>!</p>
, я бы получил простой текст:
Hello world!
и мог бы запрашивать разные символы, чтобы выяснить, какие теги применяются:
Character 0 -> H -> p
Character 1 -> e -> p
Character 2 -> l -> p
...
Character 6 -> w -> p, em
Character 7 -> o -> p, em
...
Character 11 -> ! -> p
Кто-нибудь может предложить способ сделать это?Звучит так, как будто это не должно быть слишком сложно, поэтому я подозреваю, что я просто искал неправильную терминологию, чтобы найти что-то подходящее.
В идеале это будет использовать JSoup или что-то подобное, но с удовольствием выберу другие подходыи библиотеки, если они работают!
ОБНОВЛЕНИЕ: Кроме того, мне нужно иметь возможность разделять смежные идентичные теги.Так что для HTML:
<p>Hello</p><p>World</p>
Я бы мог определить p#1
и p#2
.