Какие хорошие Java-библиотеки с открытым исходным кодом для поиска и удаления данных с веб-страницы и помещения их в базу данных. Например, предположим, что у меня была страница, такая как:
<tr><td><b>Address:</b></td>
<td colspan=3>123 My Street </td></tr>
«Адрес:» - это ключ, но я на самом деле пытаюсь получить «123 My Street», в которой есть куча HTML-тегов и пробелов между ними. В идеале я хочу получить значение между тд, которое следует за строкой «Адрес:». Кажется, что JSoup может сделать поиск, но я не видел хорошего примера того, как сделать смещение (возможно, я пропустил его). Есть ли библиотека, которая обрабатывает ключ / значение?
Мне также было бы интересно узнать о любых инициативах с открытым исходным кодом (MIT / Apache) для сценариев пользовательского интерфейса, подобных браузеру извлечения Kapow.
Спасибо.