Как экспортировать дампы из вики - PullRequest
0 голосов
/ 06 июня 2018

Я искал, как сканировать некоторые вики (а именно https://fr.vikidia.org/ и https://fr.wikimini.org/), чтобы создать текстовый корпус для НЛП.

Насколько я понял, делать это дляВ Википедии это обычно делается путем загрузки дампов из https://dumps.wikimedia.org/ и использования инструмента синтаксического анализа, такого как WikiExtractor , но кажется, что я не могу получить дампы из этих вики на сайте дампов, правильно??

Следуя странице Help: Export MediawikiAPI, я нашел два частичных ответа:

1) Настройте MediawikiAPI для этих вики и используйте скрипт listpages.py с параметром -search

Проблема : я получаю содержимое из 10000 страниц, сохраненных в одном файле для каждой статьи за раз, но это содержимое сохраняется в отформатированном видетекст с шаблоном, а не как XML, что делает его недоступным для WikiExtractor, поэтому я не смог получить доступ к простому тексту здесь.

2) Следуйте этим инструкциям , чтобы получить список именстраницы из рage Special: все страницы каждой вики, вставьте их в свои страницы Special: экспортируйте и сгенерируйте дамп XML

Проблема : на этот раз WikiExtractor правильно проанализировал формат, в результате чего появился обычный текст,но мне нужно воспроизвести эту операцию для сотен страниц. Специально: все страницы каждой вики, что совсем не практично.

Вы знаете, как мне удалось перейти от вики к простому тексту?

1 Ответ

0 голосов
/ 10 июня 2018
...