Начало работы с парсером в коде Java - PullRequest
0 голосов
/ 20 апреля 2010

Я новичок в парсерах. Мне нравится получать конкретные данные с веб-сайта. Мне нужно использовать парсеры для этого. Как начать работу с парсерами? Что мне нужно скачать? Каким будет код для извлечения данных с веб-сайта с использованием синтаксических анализаторов на Java?

1 Ответ

0 голосов
/ 20 апреля 2010

Мой совет - использовать анализатор HTML с открытым исходным кодом, такой как HTMLCleaner - http://htmlcleaner.sourceforge.net/

Вы можете использовать HTMLCleaner (или аналогичный) для создания представления DOM веб-страницы, а затем использовать его для извлечения любой информации из веб-страниц, которую вы хотите.

Процесс выглядит примерно так:

URL url = new URL("website you want to load");
HTMLCleaner h = new HTMLCleaner();
TagNode HtmlNode = h.clean(url.openStream());
//perform queries on the DOM to extract information
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...