Как поступить с содержимым веб-страницы внутри моего приложения - PullRequest
0 голосов
/ 23 июня 2011

Моя система (я использую JSP) работает с существующим веб-сайтом в Интернете.Мое приложение должно отображать страницы этого веб-сайта с некоторыми изменениями, например выделять некоторые слова.

Итак, что будет делать моя программа, это перенести страницу с этого веб-сайта и выделить некоторые конкретные слова, а затем снова отобразить страницу с выделенными словами для пользователя моей системы.

Как я могу это сделать?используя Java?

Ответы [ 3 ]

0 голосов
/ 24 июня 2011

Я бы сохранил XPath или другую идентификацию нужных DOM-узлов и использовал бы ее для параметризации некоторого JavaScript кода, который может быть введен Java, почему бы и нет.

Или вы можете простовставьте теги span вокруг ваших слов, дайте им некоторый идентификатор и вставьте CSS для идентификаторов тезисов.Это требует некоторых регулярных выражений , библиотека не нужна.

0 голосов
/ 24 июня 2011

Вы, очевидно, пытаетесь создать фильтр между исходной страницей и страницей, которой манипулируют. Таким образом, в вашей JSP вы читаете оригинальную страницу как текст. Если он находится на вашем собственном сервере, вы можете просто открыть файл и прочитать его. Или вам может понадобиться создать сокет для чтения через Интернет. В любом случае, вы читаете его как текст, вставляете любую дополнительную разметку, которая вам нужна, а затем пишете эту размеченную версию как вывод вашей JSP. В этом случае ваш JSP не будет иметь фактического содержимого, весь вывод будет производиться в пределах <% и%> с помощью выражений out.println. (JSP здесь не самый естественный выбор, вы можете захотеть взглянуть на сервлеты, но что угодно. В JSP нет ничего плохого по сути без реального текста.)

0 голосов
/ 23 июня 2011

вы можете использовать Tika для получения содержимого HTML (или любого другого инструмента, если вы уже что-то используете). затем используйте <span/>, чтобы выделить фрагмент текста, который необходимо выделить, и визуализируйте страницу.

важно учитывать разные разметки.

также, более простым решением было бы использование javascript (в частности, jquery), который значительно упростил бы весь процесс. Библиотека jQuery

...