Надеюсь, вы работаете в Java, Java предоставляет несколько библиотек для чтения HTML-контента.Как только вы получите исходный код страницы, создайте html-объект, проанализируйте его и достигните нужного узла.когда вы, наконец, получили выбранный вами узел, вы можете получить его атрибуты, его значение и другие свойства
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.10.2</version>
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
log("%s\n\t%s",
headline.attr("title"), headline.absUrl("href"));
}
Библиотека JSOUP
jsoup учебник
baeldung jsoup tutorial
был также вопрос stackoverflow для парсера html, пожалуйста, проверьте его один раз ссылка