Пытаюсь наскрести википутешествия - PullRequest
1 голос
/ 16 марта 2012

Я пытаюсь очистить вики-поездки от конкретных данных. как климат, получаю и т.д. Мне удалось получить xml от них со специальным экспортом.

http://wikitravel.org/en/Special:Export/San_Francisco Я получил данные в форме xml, но они в разметке вики, и я попытался найти решение, чтобы получить этот текст, но не смог найти подходящего решения.

Я пытался написать функцию php с регулярными выражениями, чтобы я мог преобразовать ее в html, но она конвертируется неравномерно, поэтому очень сложно выбрать конкретные данные.

Также попытался написать URL-адрес MediaWiki, чтобы я мог что-то запрограммировать http://wikitravel.org/en/api.php?format=xml&action=query&titles=Main%20Page&prop=revisions&rvprop=content Но это не работает.

Не могли бы вы помочь мне с этим. Кто-нибудь успешно соскобил википедию. У меня есть учебник или любая другая техника, на которую я могу ссылаться.

Ответы [ 2 ]

1 голос
/ 16 марта 2012

Здесь есть похожий вопрос: Где найти хороший синтаксический анализатор MediaWiki Markup в PHP?

Я также нашел это: https://github.com/codeholic/w/blob/master/creole.php Откуда: http://www.ivan.fomichev.name/2010/02/php-creole-10-wiki-markup-parser.html

Это звучит как разочарование, я желаю вам удачи!

0 голосов
/ 19 марта 2012

API Wikitravel MediaWiki находится на http://wikitravel.org/wiki/en/api.php,, поэтому попробуйте это вместо:

http://wikitravel.org/wiki/en/api.php?format=xml&action=query&titles=Main%20Page&prop=revisions&rvprop=content

Вы захотите использовать клиент API, см. http://www.mediawiki.org/wiki/API:Client_codeдля выбора.Также имейте в виду, что Wikitravel использует очень старую версию MediaWiki (1.11), поэтому многие операции в современном API не работают.

...