Какие хорошие библиотеки Java для поиска и очистки данных с веб-страницы. - PullRequest
1 голос
/ 29 июля 2011

Какие хорошие Java-библиотеки с открытым исходным кодом для поиска и удаления данных с веб-страницы и помещения их в базу данных. Например, предположим, что у меня была страница, такая как:

<tr><td><b>Address:</b></td>
<td colspan=3>123 My Street        </td></tr>

«Адрес:» - это ключ, но я на самом деле пытаюсь получить «123 My Street», в которой есть куча HTML-тегов и пробелов между ними. В идеале я хочу получить значение между тд, которое следует за строкой «Адрес:». Кажется, что JSoup может сделать поиск, но я не видел хорошего примера того, как сделать смещение (возможно, я пропустил его). Есть ли библиотека, которая обрабатывает ключ / значение?

Мне также было бы интересно узнать о любых инициативах с открытым исходным кодом (MIT / Apache) для сценариев пользовательского интерфейса, подобных браузеру извлечения Kapow.

Спасибо.

Ответы [ 2 ]

2 голосов
/ 16 декабря 2011

Попробуйте Web-Harvest . Это сканер с открытым исходным кодом, написанный на Java.
Его можно использовать как библиотеку Java, как приложение командной строки или с автономной IDE.

Вы можете использовать элемент <xpath> для извлечения любого значения из документа XHTML.

1 голос
/ 29 июля 2011

Это хороший список парсеров с открытым исходным кодом: http://java -source.net / open-source / html-parsers

Я использовал TagSoup с большим успехом для анализа десятков тысяч веб-страниц в дикой природе.Что касается отношений «ключ-значение», то вам придется иметь дело с самим собой.

...