Я пытаюсь извлечь pdf содержимое академической статьи на Java, используя Cermine.Я правильно настроил зависимости maven и прочитал github проекта с открытым исходным кодом.Но я все еще запутался в части использования Cermine.
Я хотел бы извлечь содержимое, а также реферат из файла PDF.Вот мой код и вывод
import org.jdom.Element;
import pl.edu.icm.cermine.ContentExtractor;
import pl.edu.icm.cermine.content.model.ContentStructure;
import pl.edu.icm.cermine.exception.AnalysisException;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
public class CERMINE {
public static void main(String[] args) throws AnalysisException, IOException {
ContentExtractor extractor=new ContentExtractor();
InputStream inputStream=new FileInputStream("static/pdfFile.pdf");
extractor.setPDF(inputStream);
Element result =extractor.getContentAsNLM();
String abstractText=result.getAttributeValue("abstract");
String contentText=result.getText();
String contentText2=result.getChildText("abstract");
System.out.println(abstractText);
System.out.println(contentText);
System.out.println(contentText2);
}
}
вывод:
null
null
В принципе я ничего не могу получить отфайл.Заранее спасибо.