Импортировать параметры из Википедии xml.bz2 - PullRequest
0 голосов
/ 01 февраля 2012

Я подумал о возможности написания Java-программы, которая могла бы использовать XML и вставить его в базу данных. Я распаковал сжатый файл страниц Википедии, поэтому он у меня есть в xml, а не только в xml.bz2. Я посмотрел на сайте Википедии, но безуспешно. Не могу что-то найти. Я предполагаю, что это не должен быть очень сложный процесс, и он должен быть простым, и поэтому я прошу вас:)

1 Ответ

1 голос
/ 01 февраля 2012

Суффикс .bz2 обозначает bzip2 сжатие.Если вы работаете в Linux или другой Unixish ОС, у вас, вероятно, уже установлен декомпрессор bzip2;если вы работаете в Windows, вы можете загрузить один здесь .

. Обратите внимание, что существуют библиотеки Java, которые позволяют вам читать потоки со сжатием bzip2 напрямую, без необходимости внешнего декомпрессора.Один из них можно найти здесь .

Редактировать: Подождите, я думаю, что я неправильно понял ваш вопрос.Кажется, вам уже удалось распаковать дамп XML, и теперь вы хотите знать, что с ним делать.В этом случае вы можете взглянуть на mwdumper .

...