Question

Я искал, как сканировать некоторые вики (а именно https://fr.vikidia.org/ и https://fr.wikimini.org/), чтобы создать текстовый корпус для НЛП.

Насколько я понял, делать это дляВ Википедии это обычно делается путем загрузки дампов из https://dumps.wikimedia.org/ и использования инструмента синтаксического анализа, такого как WikiExtractor , но кажется, что я не могу получить дампы из этих вики на сайте дампов, правильно??

Следуя странице Help: Export MediawikiAPI, я нашел два частичных ответа:

1) Настройте MediawikiAPI для этих вики и используйте скрипт listpages.py с параметром -search

Проблема : я получаю содержимое из 10000 страниц, сохраненных в одном файле для каждой статьи за раз, но это содержимое сохраняется в отформатированном видетекст с шаблоном, а не как XML, что делает его недоступным для WikiExtractor, поэтому я не смог получить доступ к простому тексту здесь.

2) Следуйте этим инструкциям , чтобы получить список именстраницы из рage Special: все страницы каждой вики, вставьте их в свои страницы Special: экспортируйте и сгенерируйте дамп XML

Проблема : на этот раз WikiExtractor правильно проанализировал формат, в результате чего появился обычный текст,но мне нужно воспроизвести эту операцию для сотен страниц. Специально: все страницы каждой вики, что совсем не практично.

Вы знаете, как мне удалось перейти от вики к простому тексту?

Tgr · Answer 1 · 10 июня 2018

Использование API экспорта с генератором всех страниц : https://en.wikipedia.org/w/api.php?action=query&generator=allpages&gaplimit=10&format=jsonfm&formatversion=2&export

Как экспортировать дампы из вики

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как экспортировать дампы из вики

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы