Самое простое решение - получить RSS или ATOM-канал веб-сайта, с которого вы пытаетесь получить данные.
Это широко известные форматы, и извлечение информации из таких XML-каналов будет намного прощечем получать его со страницы HTML: с RSS / ATOM вам просто нужно проанализировать канал XML и извлечь теги, содержащие информацию, которая вас интересует.
Не уверен, с каким языком вы работаете, но есть вероятность, что вы найдете библиотеку, которая поможет вам в этом.
Если веб-сайт не экспортирует канал RSS / ATOM ... Что ж, вам, вероятно, придется вернуться кHTML-утилизация;Удачи вам в этом, поскольку HTML не так хорошо структурирован, как RSS / ATOM: вам необходимо выяснить для каждого веб-сайта, где на странице есть соответствующая информация.