Как получить / прочитать существующие данные OCR в файлах .tif, используя Java? - PullRequest
0 голосов
/ 11 августа 2011

Я хочу получить существующие данные OCR в файлах .tif, используя Java. Эти данные OCR создаются с помощью MS Office Document Image Writer. Я немного искал библиотеки с открытым исходным кодом, но я не смог найти библиотеку / инструмент, который мог бы получать / читать прикрепленные данные OCR.

Как получить эти данные OCR в файлах .tif, используя Java?

1 Ответ

0 голосов
/ 07 сентября 2011

OCR Данные, созданные с помощью MS Office Document Image Writer и (другие) метаданные, могут быть получены с помощью ExifTool.

Пример:

String[] cmdLineInput = { "C:\\ExifTool\\exif.exe", "-ee",
        "C:\\images\\example.tif" };
ProcessBuilder processBuilder = new ProcessBuilder(cmdLineInput);
Process exif; // = processBuilder.start();

/**
 * CmdLineIpnut[1] = Fully qualified path to exiftool CmdLineIpnut[2] =
 * -ee // ( extract embedded ) option to extract data from multipaged
 * .tif files. CmdLineIpnut[3] = Fully qualified path to .tif file.
 */

String outputLine = "";

try {
    exif = processBuilder.start();
    BufferedReader brInput = new BufferedReader(new InputStreamReader(
            exif.getInputStream()));

    while ((outputLine = brInput.readLine()) != null) {
        System.out.println(outputLine);

    }
    exif.waitFor();

} catch (IOException ioe) {
    // handle exeception
}

Вы можете анализировать некоторые данные из outputLineи сохранить в объекте, который будет использоваться для дальнейшей обработки, например, для сохранения в базе данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...