Чтобы проверить, получаете ли вы html, вы можете использовать URL.openConnection (), чтобы получить UrlConnection, а затем вызвать getContentType (), который должен вернуть «text / html» для страницы HTML. Затем вы можете использовать метод getInputStream () в UrlConnection () в качестве замены вместо url.openStream ();
Если вы действительно хотите проверить, что контент, отправляемый вам сервером, представляет собой HTML, вам нужно найти библиотеку проверки HTML. Извините, я не знаю, извините.
Следует учесть, что, возможно, именно поэтому www.smu.com не возвращает данные, это то, что несколько веб-сайтов будут обслуживать разные данные в зависимости от строки User-Agent, отправляемой по HTTP-соединению. Вам может потребоваться изменить это в вашем UrlConnection с помощью: UrlConnection.addRequestProperty ("User-Agent", ...); См. Дополнительную информацию здесь: Настройка пользовательского агента Java URLConnection