Получить реферат Википедии с использованием Python - PullRequest
2 голосов
/ 08 декабря 2011

Я хочу получить first paragraph статьи Wikipedia. Поэтому я использую wikitools.

from wikitools import wiki
from wikitools import api
from wikitools import page

wikiobj = wiki.Wiki("http://en.wikipedia.org/w/api.php")
wikipage = page.Page(wikiobj, title="Office_Space")
wikidata = wikipage.getWikiText(True)
print wikidata

Вот результат wikitools . В этом результате есть так много тегов. Я не хочу всего этого.

Мне нужна только следующая часть из article. (Скопируйте пасту из Википедии). Является ли это возможным? Благодарю. Или есть другая альтернатива. Огромное спасибо.

   Office Space is a 1999 American comedy film satirizing work life in a typical 1990s software company. Written and directed by Mike Judge, it focuses on a handful of individuals fed up with their jobs portrayed by Ron Livingston, Jennifer Aniston, Gary Cole, David Herman, Ajay Naidu, and Diedrich Bader.
   The film's sympathetic depiction of ordinary IT workers garnered a cult following within that field, but also addresses themes familiar to white collar employees in general.
   Shot in Las Colinas and Austin, Texas, Office Space is based on Judge's Milton cartoon series. It was his first foray into live action film and second full length motion picture release.

Ответы [ 2 ]

0 голосов
/ 08 декабря 2011

Наконец-то я нашел скрипт.Это в рабочем состоянии.Спасибо за любые способы: -D

https://github.com/Anorov/Imageboard-Spammer-Deluxe/blob/d735cc24468528bb6c6cd1a1447986e550478804/wikipedia.py

0 голосов
/ 08 декабря 2011

Синтаксический анализатор шаблонов в wikipedia_utils (на который есть ссылка в этой статье о том, как чистить и анализировать Википедию ) выглядит так, как будто он позволит вам поместить все, что возвращает викитул в структуру данных Python. , из которого вы можете извлечь только те биты, которые вы хотите.

Редактировать: Вы также можете найти библиотеку Python mwlib полезной для этой цели, как описано в этом SO-ответе .

...