Я использовал инструмент ExtractWikipedia от lucene, чтобы извлечь дамп bz2 из последних английских вики-страниц.Получающиеся в результате файлы .txt все еще содержат язык разметки Википедии.Есть ли инструмент или сценарий Python, который я могу запустить над каталогом, чтобы анализировать только содержимое каждого файла в каталоге?(т.е.: измените файлы так, чтобы они содержали только содержимое, без разметки)
В качестве альтернативы, есть ли библиотека или пакет java, которые могут это сделать?Я надеюсь интегрировать его в класс Lucene, ExtractWikipedia.