Вам, вероятно, придется преобразовать необработанную вики-разметку, прежде чем индексировать ее с помощью Lucene. При работе с чистым XML-контентом можно просто использовать XSL-преобразование с <xsl:value-of select="text()"/>
для извлечения текстового содержимого.
Боюсь, что это не сработает для разметки вики, но, может быть, вы можете захватить преобразование страницы после HTML?