Вот случай. Я хочу запустить SparkNLP на Jupyterlab с ядром Scala. Я хочу использовать аннотацию RegexMatcher
. Я сохранил шаблон в файле с именем patterns.txt
на корзине s3. И я попробовал реализацию ниже
import com.johnsnowlabs.nlp.util.io.ExternalResource
import com.johnsnowlabs.nlp.util.io.ReadAs.LINE_BY_LINE
val document = new DocumentAssembler().setInputCol("text").setOutputCol("document")
val regexmatcher = new RegexMatcher().
setInputCols(Array("document")).
setOutputCol("match").
setStrategy("MATCH_ALL").
setRules(ExternalResource("s3://bucket_name/patterns.txt", LINE_BY_LINE, Map("format" -> "text", "delimiter" -> " ")))
val pipeline_regex = new Pipeline().setStages(Array(document, regexmatcher))
val regex_match = pipeline_regex.fit(dev_data)
regex_match.transform(dev_data).select('match).show(false)
Однако, похоже, что это вообще не работает, и patterns.txt
не используются. Как это исправить.