Как мне скопировать страницы из Википедии, используя какой-нибудь скрипт? - PullRequest
0 голосов
/ 13 апреля 2011

Мне нужны страницы городов моей страны из Википедии для использования на моем веб-сайте.Например, для Нью-Йорк будет одна главная страница о городе.Итак, если у меня есть список городов, как мне загрузить страницы?

Это будет тысячи городов.

Я также слышал, что Википедия не любитботы получают доступ к своей странице.Я буду использовать информацию согласно лицензии Creative Commons.

Было бы неплохо, если бы я мог написать код в Perl-скрипте.

Ответы [ 2 ]

5 голосов
/ 13 апреля 2011

Вы не должны очищать Википедию, когда они предоставляют данные для бесплатного скачивания:

http://en.wikipedia.org/wiki/Wikipedia:Database_download

И советы по его использованию:

http://en.wikipedia.org/wiki/Wikipedia:Database_download#Help_parsing_dumps_for_use_in_scripts

Тогда вы можете просто использовать инструменты, которые уже были предоставлены вам:

http://search.cpan.org/dist/MediaWiki-DumpFile

В качестве альтернативы, если вы действительно хотите просто известное ограниченное подмножество, есть доступный API:

http://www.mediawiki.org/wiki/API

Чтобы использовать это с perl, вы начинаете смотреть на модули LWP и JSON или, опять же, используете CPAN: http://search.cpan.org/dist/MediaWiki-API

4 голосов
/ 13 апреля 2011

Вы можете использовать WWW::Wikipedia:

#!/usr/bin/env perl

use strict;
use warnings;

use WWW::Wikipedia;

my $wiki  = WWW::Wikipedia->new();
my $entry = $wiki->search('New York');

binmode STDOUT, ':utf8';
print $entry->fulltext();

Подробнее о методах возврата текста см. В WWW::Wikipedia::Entry:

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...