извлечь текст из PDF-файлов

/ 26 октября 2010

Мне нужно извлечь текст (слово за словом) из файла PDF.

import java.io.*;

import com.itextpdf.text.*;

import com.itextpdf.text.pdf.*;

import com.itextpdf.text.pdf.parser.*;

public class pdf {

    private static String INPUTFILE = "http://ontology.buffalo.edu/ontology%28PIC%29.pdf" ;

    private static String OUTPUTFILE = "c:/new3.pdf";

    public static void main(String[] args) throws DocumentException,
            IOException {

        Document document = new Document();

        PdfWriter writer = PdfWriter.getInstance(document,

        new FileOutputStream(OUTPUTFILE));


        PdfReader reader = new PdfReader(INPUTFILE);

        int n = reader.getNumberOfPages();

        PdfImportedPage page;

        // Go through all pages

        for (int i = 1; i <= n; i++) {

                page = writer.getImportedPage(reader, i);


                Image instance = Image.getInstance(page);




        PdfReader readerN = new PdfReader(OUTPUTFILE);

        PdfTextExtractor parse = new PdfTextExtractor();

for (int i = 1; i <= n; i++) 



Когда я компилирую код, у меня появляется эта ошибка:

конструктор PdfTextExtractorне определено

Как это исправить?

/ 26 октября 2010

PDFTextExtractor содержит только статические методы, а конструктор является закрытым. IText

Вы можете назвать это так:
String myLine = PDFTextExtractor.getTextFromPage(reader, pageNumber)

/ 10 ноября 2017

Если вы хотите получить весь текст из файла PDF и сохранить его в текстовом файле, вы можете использовать следующий код.

Использовать pdfutil.jar библиотека.

import java.io.IOException;
import java.io.PrintWriter;

import com.testautomationguru.utility.PDFUtil;

public class PDFToText{

    public static void main(String[] args) {

        try {
            String pdfFilePath = "C:\\abc.pdf";
            PDFUtil pdfUtil = new PDFUtil();
            String content = pdfUtil.getText(pdfFilePath);
            PrintWriter out = new PrintWriter("C:\\abc.txt");

        } catch (IOException e) {


/ 16 сентября 2015
// Try Apache PDF Box
import java.io.FilterInputStream;
import java.io.InputStream;

import org.apache.pdfbox.cos.COSDocument;
import org.apache.pdfbox.pdfparser.PDFParser;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.util.PDFTextStripper;

// Your PDF file
String filePath = "";
InputStream inputStream = null;

    inputStream = new FileInputStream(filePath);
    PDFParser parser = new PDFParser(inputStream);

    // This will parse the stream and populate the COSDocument object.

    // Get the document that was parsed.
    COSDocument cosDoc = parser.getDocument();

    // This class will take a pdf document and strip out all of the text and 
    // ignore the formatting and such.
    PDFTextStripper pdfStripper = new PDFTextStripper();

    // This is the in-memory representation of the PDF document
    PDDocument pdDoc = new PDDocument(cosDoc);

    // This will return the text of a document.
    def statementPDF = pdfStripper.getText(pdDoc); 
catch(Exception e)
    String errorMessage += "\nUnexpected Exception: "  + e.getClass() + "\n" + e.getMessage();
    for (trace in e.getStackTrace())
        errorMessage += "\n\t" + trace;
   if (inputStream != null)