Как сканировать всю Википедию? - PullRequest
6 голосов
/ 22 февраля 2010

Я пробовал приложение WebSphinx.

Я понимаю, что если я добавлю wikipedia.org в качестве начального URL, он больше не будет сканироваться.

Следовательно, как на самом деле сканировать всю Википедию? Кто-нибудь может дать мне несколько рекомендаций? Нужно ли мне специально искать эти URL-адреса и указывать несколько начальных URL-адресов?

У кого-нибудь есть предложения по созданию хорошего веб-сайта с руководством по использованию API WebSphinx?

Ответы [ 6 ]

44 голосов
/ 22 февраля 2010

Если ваша цель состоит в том, чтобы сканировать всю Википедию, вы можете посмотреть доступные дампы базы данных. Смотри http://download.wikimedia.org/.

4 голосов
/ 22 февраля 2010

Я не уверен, но, возможно, UserAgent от WEbSphinx заблокирован robots.txt из Википедии

http://en.wikipedia.org/robots.txt

2 голосов
/ 21 апреля 2012

Я думаю, вы не могли выбрать для этого необходимую конфигурацию. Переключитесь на расширенный, сканируйте поддомен, не ограничивайте размер страницы и время.

Тем не менее, WebSphinx , вероятно, не может сканировать целое Википедия , оно замедляется при увеличении объема данных и в конечном итоге останавливается около 200 МБ памяти. Я рекомендую вам Nutch , Heritrix и Crawler4j .

0 голосов
/ 19 августа 2014

Взгляните на dbpedia , структурированную версию Википедии.

0 голосов
/ 23 февраля 2010

В дополнение к упомянутому выше дампу базы данных Википедии вы можете использовать API Википедии для выполнения запросов, таких как получение 100 случайных статей.

http://www.mediawiki.org/wiki/API:Query_-Lists#random.2F_rn

0 голосов
/ 22 февраля 2010

Возможно, вам нужно начать со случайной статьи, а затем отсканировать все статьи, к которым вы можете обратиться из этой начальной. Когда это дерево поиска будет исчерпано, начните с новой случайной статьи. Вы можете заполнить свои поиски терминами, которые, по вашему мнению, приведут к большинству статей, или начать с избранной статьи на первой странице.

Еще один вопрос: почему WebSphinx не ползет дальше? Википедия блокирует ботов, которые идентифицируются как «WebSphinx»?

...