Парсер для Википедии - PullRequest
       24

Парсер для Википедии

13 голосов
/ 08 октября 2010

Я скачал дамп Википедии и хочу преобразовать формат вики в мой объектный формат. Есть ли вики-парсер, который преобразует объект в XML?

Ответы [ 7 ]

7 голосов
/ 08 октября 2010

См. java-wikipedia-parser .Я никогда не использовал его, но в соответствии с документами:

Парсер поставляется с генератором HTML.Однако вы можете контролировать вывод, передаваемый вашей собственной реализацией интерфейса be.devijver.wikipedia.Visitor.

2 голосов
/ 21 октября 2011

Парсер JWPL анализирует структуру текста с помощью разметки MediaWiki и представляет его как объект Java.Это обеспечивает структурированный доступ к содержимому, например, Википедии или Викисловаря.Отдельного выпуска парсера не существует, так как он является частью выпуска JWPL Wikipedia API.Тем не менее, он может отлично использоваться без доступа к Википедии с JWPL.

http://code.google.com/p/jwpl/wiki/JWPLParser

2 голосов
/ 13 октября 2010

Не знаю, как именно выглядит XML-формат дампа Википедии.Но если часть текста находится в разметке Википедии, я предлагаю исследовать http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.html. Это один из классов пакета Википедии для Apache Lucene.Я не использовал его, но apache lucene - довольно зрелый проект, поэтому стоит попробовать его - в данном случае экспериментальный - пакет.

1 голос
/ 08 октября 2010

Это может помочь: страница с конвертерами из mediawiki в другие форматы, включая docbook . Docbook - это стандартный xml-формат, который может соответствовать вашим потребностям (xml-представление контента mediawiki)

0 голосов
/ 03 января 2015

Wiki Parser преобразует дампы Википедии в разобранный XML.Может быть именно то, что вам нужно.

0 голосов
/ 20 августа 2011

вы можете попробовать wikiprep, это Perl Википедия парсер проверить его страницу

он выводит много файлов, некоторые из которых

1- википедия анализируется в XML 2-hier файл, который содержит иерархию категорий Википедии

Я попробовал это, и это очень полезно, это единственная проблема, что ему требуется большой объем памяти, доступной для обработки, скорее всего, более 4 ГБ ОЗУ, а также вы можете скачать подготовленную версию XML здесь , который также доступен на странице

0 голосов
/ 19 августа 2011

Вы можете использовать широкий спектр инструментов для анализа вашего содержимого.Все скриптовые языки имеют модули.Например, язык Perl имеет Text :: Markup :: Trac , который является синтаксическим анализатором вики Trac для Text :: Markup.Он генерирует файл HTML.

...