Jericho-html: можно ли извлечь текст со ссылкой на позиции в исходном файле? - PullRequest
1 голос
/ 07 апреля 2011

Я использую Иерихон HTML Parser 3.1.

Мне нужно извлечь текст из HTML, обработать его и в соответствии с этим мне нужно вставить теги в исходный HTML.

Но для этого мне нужно сопоставить извлеченный текст и исходный HTML.

net.htmlparser.jericho.TextExtractor извлекает текст довольно хорошо, но я не смог найти, как найти местоположение в исходном файле.

Возможно ли это сделать с помощью Jericho-html?

1 Ответ

2 голосов
/ 07 апреля 2011

Вы не можете сделать это с TextExtractor как есть, но мне нужно было делать подобные вещи в прошлом, и самое простое решение - скопировать реализацию Jericho TextExtractor и отредактировать ее, чтобы добавить свой собственныйнестандартное поведение.Это довольно простой класс, поэтому вы сможете легко увидеть, куда добавить свои собственные хуки.

...