Question

В любом тексте мы можем встретить сложные слова или объекты, такие как «Университет национальной обороны», «Нью-Йорк Таймс».

Я могу извлечь объекты в виде списка строк, используя StanfordNLP, но что дальше? как я могу сказать Spark рассматривать эти строки как одно слово? Или есть встроенная функциональность, которая уже делает это?

Мой конвейер состоит из следующих этапов:

new RegexTokenizer().setInputCol("docs").setOutputCol("rawTokens")
new StopWordsRemover().setInputCol("rawTokens").setOutputCol("tokens")
new CountVectorizer().setInputCol("tokens").setOutputCol("features")

Как сохранить сущности в MLlib LDA

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как сохранить сущности в MLlib LDA

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы