Вероятно, стоит дать пакет, который вы используете.Чтобы сделать то, что вы хотите, вы можете сделать следующее со следующими двумя пакетами
library(udpipe)
# This takes a minute to download the english dictionary
x <- udpipe(x = "significant step towards large scale hydrogen production iisc team
collaboration jncasr researcher develop low cost catalyst
speed split water generate hydrogen gas",
object = "english")
. Это даст вам все виды информации для вашего анализа, включая токен, лемму и т. Д. Вы можете сделать многос этим.
x$lemma
[1] "significant" "step" "towards" "large" "scale" "hydrogen" "production"
[8] "iisc" "team" "collaboration" "jncasr" "researcher" "develop" "low"
[15] "cost" "catalyst" "speed" "split" "water" "generate" "hydrogen"
[22] "gas"
Чтобы обрезать слово, вы можете использовать пакет tm
.Если вы хотите остановить леммы у вас есть:
library(tm)
tm::stemDocument(x$lemma)
Что даст вам следующее:
[1] "signific" "step" "toward" "larg" "scale" "hydrogen" "product" "iisc" "team" "collabor"
[11] "jncasr" "research" "develop" "low" "cost" "catalyst" "speed" "split" "water" "generat"
[21] "hydrogen" "gas"