разделение файла дампа Википедии на несколько файлов XML - PullRequest
0 голосов
/ 06 июня 2011

В настоящее время я делаю некоторый эксперимент, который использует статьи из Википедии.дамп файла википедии составляет около 30 ГБ.Есть ли инструменты (желательно php) или какой-нибудь скрипт, который может разбить этот большой файл на куски (по одному XML-файлу на статью)?

Ответы [ 2 ]

1 голос
/ 06 июня 2011

Вот статья: Создание (быстрого) автономного читателя Википедии , в котором описывается нечто подобное

Возможно, он не столько полагается на PHP, сколько обсуждается, но обсуждается разбиение файла дампа на управляемые части.

0 голосов
/ 06 июня 2011

Я предлагаю вам использовать отличный XMLReader , который позволяет вам читать файл xml-файл за узлом, вместо того, чтобы сначала загружать весь файл в память.

После этого вы можете просматривать узел с помощью DOM или SimpleXML!

...