С нативным API Java вы можете читать с URL, используя java.net.URLConnection . Вот базовый пример:
URL url = new URL("http://www.stackoverflow.com");
URLConnection urlConnection = url.openConnection();
InputStream result = urlConnection.getInputStream();
BufferedReader reader = new BufferedReader(new InputStreamReader(result));
String line = null;
while ((line = reader.readLine()) != null) {
System.out.println(line);
}
reader.close();
Вы можете передать InputStream
любому парсеру DOM / SAX на ваш вкус. Средний парсер может принимать (in) непосредственно InputStream
в качестве аргумента. JTidy - один из лучших анализаторов HTML.
Для удобства, вот сокращение, чтобы получить InputStream
из URL напрямую:
InputStream result = new URL("http://www.stackoverflow.com").openStream();