Как скачать египетские статьи на арабском из Википедии - PullRequest
0 голосов
/ 12 мая 2018

Я исследователь, и мне нужно загрузить много (или все) страниц египетского диалекта в Википедии?

Я совершенно новичок в этом.любая помощь, пожалуйста

1 Ответ

0 голосов
/ 13 мая 2018

Вы ищете дампы базы данных Википедии.Информация об этих дампах сообщается на странице дампов базы данных , а HTML-версия сайта обычно доступна в статических дампах HTML .

Как правильноуказал, что египетский арабский язык (arz в ISO 639-3) недоступен в статическом HTML-хранилище, но база данных доступна в после официального зеркала (как сообщается на странице дампа базы данных)в качестве базы данных SQL.Схема для базы данных должна быть совместима с общей схемой Википедии, которая описана здесь .

Я предлагаю вам внимательно прочитать эту страницу , которая предоставляет дополнительную информациюоб инициализации самой базы данных для локального использования, а также предлагает никогда не использовать веб-сканеры на общедоступных сайтах Википедии .На этих же страницах есть скрипт для разбора и запроса к базе данных.

Есть альтернатива.Вы можете попытаться использовать такие ресурсы, как dbpedia.org , который объявляет некоторые дампы для языка arz и может запрашиваться напрямую с помощью sql запросов.

Счастливая загрузка!

...