Для использования Spark NLP OCR необходимо установить Tesseract 4.x +, как указано в документации.В кластере это должно быть на всех узлах.Однако, если вы имеете дело только с PDF, а не с отсканированными изображениями, вы можете пропустить установку Tesseract 4.x +:
import com.johnsnowlabs.nlp.util.io.OcrHelper
val ocrHelper = new OcrHelper()
val df = ocrHelper.createDataset(spark, "/tmp/Test.pdf")