Можете ли вы получить то, что вам нужно, из каналов RSS / Atom?Это значительно упростит вещи, потому что они представляют собой XML, а не HTML и могут быть проанализированы стандартным синтаксическим анализатором XML.Конечно, описания, встроенные в RSS-каналы, будут HTML, поэтому в зависимости от вашего приложения может быть , когда вам нужно проанализировать HTML.
XSLT - это предметно-ориентированный язык программирования, предназначенный дляобрабатывает XML, но вы также можете использовать любой язык программирования, который включает в себя анализатор XML для этой задачи.