Я получил набор статей из Википедии в формате html из Интернета. Мне нужно извлечь простой текст, описывающий статью и информацию о категориях, к которой относится статья?
Если вы хотите получить категории, проще использовать API, чем анализировать HTML.
API документирован здесь: http://en.wikipedia.org/w/api.php