Как сохранить сущности в MLlib LDA - PullRequest
0 голосов
/ 04 апреля 2019

В любом тексте мы можем встретить сложные слова или объекты, такие как «Университет национальной обороны», «Нью-Йорк Таймс».

Я могу извлечь объекты в виде списка строк, используя StanfordNLP, но что дальше? как я могу сказать Spark рассматривать эти строки как одно слово? Или есть встроенная функциональность, которая уже делает это?

Мой конвейер состоит из следующих этапов:

new RegexTokenizer().setInputCol("docs").setOutputCol("rawTokens")
new StopWordsRemover().setInputCol("rawTokens").setOutputCol("tokens")
new CountVectorizer().setInputCol("tokens").setOutputCol("features")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...