Моя конечная цель - индексировать документы, используя lucene. Поскольку lucene не поддерживает индексацию других форматов. Я хочу преобразовать эти файлы в txt / html (индексируемые типы файлов lucene).
У меня есть набор документов почти 1000 файлов ppt, pdf, doc, xl и т. Д.
Пожалуйста, помогите мне