Извлеките текст и информацию о категориях статей из Википедии со своей html-страницы. - PullRequest
1 голос
/ 07 февраля 2011

Я получил набор статей из Википедии в формате html из Интернета. Мне нужно извлечь простой текст, описывающий статью и информацию о категориях, к которой относится статья?

1 Ответ

1 голос
/ 14 марта 2011

Если вы хотите получить категории, проще использовать API, чем анализировать HTML.

API документирован здесь: http://en.wikipedia.org/w/api.php

...