Извлечение вводной части статьи в Википедии, python - PullRequest
2 голосов
/ 28 ноября 2010

Я хочу извлечь вступительную часть статьи в Википедии (игнорируя все остальные вещи, включая таблицы, изображения и другие части). Я просмотрел html источник статей, но не вижу специального тега, в который обернута эта часть.

Может кто-нибудь дать мне быстрое решение этого вопроса? Я пишу скрипты на Python.

спасибо

Ответы [ 2 ]

3 голосов
/ 28 ноября 2010
  1. Возможно, вы захотите проверить mwlib для анализа источника в википедии
  2. В качестве альтернативы используйте wikidump lib
  3. просмотр экрана HTML через BeautifulSoup

Ах, на SO уже есть вопрос по этой теме:

  1. Разбор дампа Википедии
  2. Как анализировать / извлекать данные из размеченной статьи в MediaWiki через python
0 голосов
/ 28 ноября 2010

Я думаю, что вы часто можете добраться до вступительного текста, взяв полную страницу, вычистив все таблицы, а затем ища первую последовательность блоков

...

после маркера.Этот последний бит будет следующим регулярным выражением:
/<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/

С опцией .S, чтобы сделать.соответствовать новым строкам ...

...