Как использовать RegexMatcher в SparkNLP - PullRequest
0 голосов
/ 20 марта 2020

Вот случай. Я хочу запустить SparkNLP на Jupyterlab с ядром Scala. Я хочу использовать аннотацию RegexMatcher. Я сохранил шаблон в файле с именем patterns.txt на корзине s3. И я попробовал реализацию ниже

import com.johnsnowlabs.nlp.util.io.ExternalResource
import com.johnsnowlabs.nlp.util.io.ReadAs.LINE_BY_LINE
val document = new DocumentAssembler().setInputCol("text").setOutputCol("document")
val regexmatcher = new RegexMatcher().
  setInputCols(Array("document")).
  setOutputCol("match").
  setStrategy("MATCH_ALL").
  setRules(ExternalResource("s3://bucket_name/patterns.txt", LINE_BY_LINE, Map("format" -> "text", "delimiter" -> " ")))
val pipeline_regex = new Pipeline().setStages(Array(document, regexmatcher))
val regex_match = pipeline_regex.fit(dev_data)
regex_match.transform(dev_data).select('match).show(false)

Однако, похоже, что это вообще не работает, и patterns.txt не используются. Как это исправить.

...