Википедия: страницы на разных языках - PullRequest
2 голосов
/ 14 сентября 2010

Я хочу использовать дамп википедии для моего проекта.Ниже информация требуется для моего проекта.

  1. Для записи в википедии я хочу знать, какой другой язык содержит страницу?
  2. Я хочу загружаемые данные в формате csv или в другом общем формате.

Есть ли способ получить эти данные?

Спасибо, Бала

Ответы [ 3 ]

1 голос
/ 14 сентября 2010

Викимедиа предоставляет дампы Википедии в различных форматах на download.wikimedia.org .

1 голос
/ 14 сентября 2010

Фонд Викимедиа предоставляет дампы XML всех своих проектов, включая англоязычную Википедию.

Анализ англоязычной вики-статьи для межязыковых ссылок довольно прост: синтаксис для таких ссылок [[language_code:Name of other language Wikipedia article]], где language_code обычно представляет собой двух- или трехбуквенный код (например, tlh для клингона) по стандарту ISO за исключением нескольких исключений, таких как simple для простого английского.

0 голосов
/ 19 декабря 2014

Я отвечу на этот вопрос, даже если он старый, потому что все изменилось: теперь есть Wikidata .

Все взаимосвязи были исключены из статей Википедии, и теперь в Викиданных есть все: вы можете проверить Предмет (например, Q42"Дуглас Адамс") и Страницы Википедии, связанные с этим элементом ", предоставят вам ссылки сайта для всех различных Википедий.

Здесь вы можете найти Wikidata API , или вы можете использовать страницу Special: Export для получения статьи (статей) в формате XML.

...