Я ничего не знаю о Lucene, но для начала, если вы используете торт, было бы поставить существующие страницы под контроль контроллера страниц Cake - читайте об этом в книге http://book.cakephp.org или Google больше информации.
После этого я, вероятно, начал бы думать об использовании fgetss()
или чего-то подобного для очистки страниц.
Me? Я бы поместил существующие страницы в базу данных и настроил модель данных Article [n] - [m] Word. Гораздо проще с ними справиться.