Тика пустой результат - PullRequest
0 голосов
/ 27 января 2020

Я работаю с библиотекой Tika Java. Я использую Lucee (часть ColdFusion), и когда я использую онлайн-пример для извлечения текста из PDF-файла, я получаю пустую строку.

Что такое настройка?

I ' я установил Lucee локально и получил доступ к пустой странице index.cfm. Я добавил файл Tika jar в проект и вижу, что он правильно загружен в администраторе Lucee.

Какой код?

Следующая часть - самый простой код, который я мог найти чтобы преобразовать PDF в текст:

    handler = createObject("java", "org.apache.tika.sax.BodyContentHandler");
    metadata = createObject("java", "org.apache.tika.metadata.Metadata");
    inputstream = createObject("java", "java.io.FileInputStream").init(createObject("java", "java.io.File").init('C:\lucee\tomcat\webapps\ROOT\test\dummy.pdf'));   
    pcontext = createObject("java", "org.apache.tika.parser.ParseContext");
    pdfparser = createObject("java", "org.apache.tika.parser.AutoDetectParser");
    pdfparser.parse(inputstream, handler, metadata, pcontext);
    writeDump(handler.toString());

, поэтому, когда я запускаю это, я получаю пустую строку и ожидаю текст внутри PDF. Также все метаданные пусты.

Заключение

Я думаю, что библиотека, возможно, загружена неправильно. Но что я могу сделать, чтобы увидеть, где это идет не так? Я не получаю никакой ошибки, просто пустые значения. Пробовал разные PDF и даже разные файлы. Пробовал автопарсер и разные виды кодов. Это проблема Люси? Или проблема Java?

...