Как разобрать и изменить HTML-файл в Java - PullRequest
8 голосов
/ 11 октября 2010

Я делаю проект, в котором мне нужно прочитать файл HTML и определить конкретные теги, изменить содержимое тега и создать новый файл HTML.Есть ли библиотека, которая анализирует теги HTML и способна записывать теги обратно в новый файл?

Ответы [ 4 ]

6 голосов
/ 11 октября 2010

Проверьте http://jsoup.org, он имеет дружественный API, похожий на dom, для простых задач вам не нужно разбирать html.

2 голосов
/ 11 октября 2010

Слишком много парсеров HTML.Вы можете использовать JTidy , NekoHTML или проверить TagSoup .

Я обычно предпочитаю синтаксический анализ XHTML со стандартными анализаторами Java XML, но вы можетесделать это для любого типа HTML.

2 голосов
/ 11 октября 2010


Если вы хотите изменить веб-страницу и вернуть измененный контент, я думаю, что лучший способ - использовать XSL-преобразование.
http://en.wikipedia.org/wiki/XSLT

0 голосов
/ 11 октября 2010

Посмотрите на http://java -source.net / open-source / html-parsers для получения списка библиотек Java, которые разбирают HTML-файлы в объекты Java, которыми можно манипулировать.

Если html-файлы, с которыми вы работаете, хорошо сформированы (xhtml), то вы также можете использовать библиотеки XML в java для поиска определенных тегов и их изменения. Сам IO должен обрабатываться конкретными библиотеками, которые вы используете.

Если вы решите вручную анализировать строки, вы можете использовать регулярные выражения для поиска определенных тегов и использовать библиотеки java io для записи в файлы и создания новых HTML-документов. Но этот метод, так сказать, заново изобретает колесо, потому что вам нужно управлять открытием и закрытием тегов, и все эти вещи обрабатываются уже существующими библиотеками.

...