В любом тексте мы можем встретить сложные слова или объекты, такие как «Университет национальной обороны», «Нью-Йорк Таймс».
Я могу извлечь объекты в виде списка строк, используя StanfordNLP, но что дальше? как я могу сказать Spark рассматривать эти строки как одно слово? Или есть встроенная функциональность, которая уже делает это?
Мой конвейер состоит из следующих этапов:
new RegexTokenizer().setInputCol("docs").setOutputCol("rawTokens")
new StopWordsRemover().setInputCol("rawTokens").setOutputCol("tokens")
new CountVectorizer().setInputCol("tokens").setOutputCol("features")