Как извлечь PDF-контент с помощью Cermine - PullRequest
1 голос
/ 22 сентября 2019

Я пытаюсь извлечь pdf содержимое академической статьи на Java, используя Cermine.Я правильно настроил зависимости maven и прочитал github проекта с открытым исходным кодом.Но я все еще запутался в части использования Cermine.

Я хотел бы извлечь содержимое, а также реферат из файла PDF.Вот мой код и вывод

import org.jdom.Element;
import pl.edu.icm.cermine.ContentExtractor;
import pl.edu.icm.cermine.content.model.ContentStructure;
import pl.edu.icm.cermine.exception.AnalysisException;

import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;

public class CERMINE {
    public static void main(String[] args) throws AnalysisException, IOException {
        ContentExtractor extractor=new ContentExtractor();
        InputStream inputStream=new FileInputStream("static/pdfFile.pdf");
        extractor.setPDF(inputStream);
        Element result =extractor.getContentAsNLM();
        String abstractText=result.getAttributeValue("abstract");
        String contentText=result.getText();
        String contentText2=result.getChildText("abstract");
        System.out.println(abstractText);
        System.out.println(contentText);
        System.out.println(contentText2);
    }
}

вывод:

null

null

В принципе я ничего не могу получить отфайл.Заранее спасибо.

...