Я работаю с библиотекой Tika Java. Я использую Lucee (часть ColdFusion), и когда я использую онлайн-пример для извлечения текста из PDF-файла, я получаю пустую строку.
Что такое настройка?
I ' я установил Lucee локально и получил доступ к пустой странице index.cfm. Я добавил файл Tika jar в проект и вижу, что он правильно загружен в администраторе Lucee.
Какой код?
Следующая часть - самый простой код, который я мог найти чтобы преобразовать PDF в текст:
handler = createObject("java", "org.apache.tika.sax.BodyContentHandler");
metadata = createObject("java", "org.apache.tika.metadata.Metadata");
inputstream = createObject("java", "java.io.FileInputStream").init(createObject("java", "java.io.File").init('C:\lucee\tomcat\webapps\ROOT\test\dummy.pdf'));
pcontext = createObject("java", "org.apache.tika.parser.ParseContext");
pdfparser = createObject("java", "org.apache.tika.parser.AutoDetectParser");
pdfparser.parse(inputstream, handler, metadata, pcontext);
writeDump(handler.toString());
, поэтому, когда я запускаю это, я получаю пустую строку и ожидаю текст внутри PDF. Также все метаданные пусты.
Заключение
Я думаю, что библиотека, возможно, загружена неправильно. Но что я могу сделать, чтобы увидеть, где это идет не так? Я не получаю никакой ошибки, просто пустые значения. Пробовал разные PDF и даже разные файлы. Пробовал автопарсер и разные виды кодов. Это проблема Люси? Или проблема Java?