Как удалить внутренние ссылки из XML-файлов Википедии? - PullRequest
0 голосов
/ 01 апреля 2009

Если я скачал дампы Wikipedia XML, есть ли способ удалить все внутренние ссылки из файла XML?

Спасибо

Ответы [ 4 ]

0 голосов
/ 04 апреля 2009

Я бы попытался использовать XSLT для преобразования XML-файла в другой XML-файл.

0 голосов
/ 01 апреля 2009

Одна вещь, которую вы можете сделать, если вы импортируете их в локальную вики, это импортировать все нужные вам файлы, а затем использовать робота (например, pywikipediabot прост в использовании), чтобы избавиться от него. из всех внутренних ссылок.

0 голосов
/ 01 апреля 2009

Вы можете выполнить поиск и заменить в своем любимом текстовом редакторе, заменив [[и]] ничем.

0 голосов
/ 01 апреля 2009

Дампы базы данных Википедии и информация об их использовании находятся здесь: Википедия: Загрузка базы данных . Вы должны сделать это вместо того, чтобы писать сценарий для очистки Википедии.

...