Разобрать разметку Википедии из файлов в каталоге - PullRequest
0 голосов
/ 28 октября 2011

Я использовал инструмент ExtractWikipedia от lucene, чтобы извлечь дамп bz2 из последних английских вики-страниц.Получающиеся в результате файлы .txt все еще содержат язык разметки Википедии.Есть ли инструмент или сценарий Python, который я могу запустить над каталогом, чтобы анализировать только содержимое каждого файла в каталоге?(т.е.: измените файлы так, чтобы они содержали только содержимое, без разметки)

В качестве альтернативы, есть ли библиотека или пакет java, которые могут это сделать?Я надеюсь интегрировать его в класс Lucene, ExtractWikipedia.

1 Ответ

0 голосов
/ 01 ноября 2011

вы можете попробовать это википрепарат, это готовый Perl-скрипт, который (вам нужно сначала установить Perl)

  • удаляет язык wikimarkup
  • генерировать иерархические категории
  • удаляет перенаправления
  • генерирует XML-формат, который легко анализировать

http://www.cs.technion.ac.il/~gabr/resources/code/wikiprep/

может пройти несколько часов, чтобы просмотреть всю википедию немой иможет потребоваться большой объем памяти около 6ГБ оперативной памяти

...