Я хочу иметь возможность получать контент с веб-страниц, особенно теги и контент внутри них. Я пробовал XQuery и XPath, но они не работают для искаженного XHTML, а REGEX - это просто боль.
Есть ли лучшее решение? В идеале я хотел бы иметь возможность запрашивать все ссылки и возвращать массив URL-адресов, или запрашивать текст ссылок и возвращать массив строк с текстом ссылок, или запрашивать весь жирный текст и т.д.