Не удается запустить ноутбук OCR от Johnsnow на кирпичах данных - PullRequest
0 голосов
/ 20 декабря 2018

Итак, я пытаюсь проследить за этим блокнотом и заставить его работать с блокнотом данных: https://github.com/JohnSnowLabs/spark-nlp-workshop/blob/master/jupyter/ocr-spell/OcrSpellChecking.ipynb;Тем не менее, после установки всех пакетов, я все еще застреваю, когда я получаю

{ // for displaying
val regions = data.select("region").collect().map(_.get(0))
regions.foreach{chunk =>
    println("---------------")
    println(chunk)}
}

Сообщение об ошибке:

org.apache.spark.SparkException: задание прерваноиз-за сбоя этапа: задача 0 на этапе 3.0 завершилась 4 раза, последний сбой: потерянная задача 0.3 на этапе 3.0 (TID 51, 10.195.249.145, исполнитель 4): java.lang.NoClassDefFoundError: Не удалось инициализировать класс net.sourceforge.tess4j.TessAPI

Кто-нибудь знает почему?Очень ценится!

1 Ответ

0 голосов
/ 06 мая 2019

Для использования Spark NLP OCR необходимо установить Tesseract 4.x +, как указано в документации.В кластере это должно быть на всех узлах.Однако, если вы имеете дело только с PDF, а не с отсканированными изображениями, вы можете пропустить установку Tesseract 4.x +:

import com.johnsnowlabs.nlp.util.io.OcrHelper
val ocrHelper = new OcrHelper()

val df = ocrHelper.createDataset(spark, "/tmp/Test.pdf")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...