Если вы специально хотите обрабатывать части документа HTML, расположенные по указанному вами URL-адресу, вы, вероятно, ошибаетесь. Если вы просто хотите получить список статей, например, по заголовкам, тогда вам нужен веб-канал. В этом случае Times публикует RSS-канал из этой же категории статей. Обратите внимание, что если вы нажмете эту страницу с помощью браузера, браузер распознает ее как ленту новостей и обработает ее на более высоком уровне, то есть спросит, хотите ли вы подписаться на ленту новостей. Но вы можете поразить это с помощью curl и увидеть непарсированный поток XML. Каждый элемент в ленте будет представлять статью и содержать метаданные, такие как URL-адрес полной статьи, заголовок и т. Д.
Также обратите внимание, что, вероятно, есть какие-то специальные пакеты веб-каналов для используемой языковой платформы, которые обеспечат вам высокий уровень доступа к данным каналов. Это позволит вам написать код вроде:
foreach ( article in feed )
title = article.getTitle();
вместо того, чтобы разбирать xml самостоятельно.