Ни один из проектов в семействе Lucene не может обрабатывать PDF-файлы, но есть полезные утилиты и хорошо написанные примеры того, как создавать свои собственные.
Lucene будет делать практически все, что вам нужно, но с точки зрения вашего времени, как сказал Тони, это накладные расходы. Тысячи документов на самом деле не это много, так что вы могли бы уйти с более легкой альтернативой.
Тем не менее, я все равно рекомендую взглянуть на Solr - его гораздо, гораздо проще настроить, чем Lucene, имеет поддержку резервного копирования, репликации и т. Д., А также отличный интерфейс JSON, который очень хорошо подходит для вашего варианта использования. : http://wiki.apache.org/solr/SolJSON