Странный результат лемматизации в r, текстовый пакет - PullRequest
0 голосов
/ 18 мая 2018

Я хотел бы получить лемму «нырнуть» из всех возможных форм слова, используя пакетекстема в R.

Но когда я использовал пакет текстстема в r, базовая форма становится очень странным результатом.

library(textstem)
words<-c("dived", "diving", "dive")

lemmatize_strings(words, dictionary = lexicon::hash_lemmas)

[1] "dive" "dive" "diva"

Здесь я не хочу, чтобы слово «нырять» было результатом слова «нырять», вместо этого мне нужно перевести слово «нырять» в слово «нырять», чтобы его можно было считать одним и тем же.Слово с другими формами «нырнул», «нырять».Так и должно быть, ниже.

[1] "dive" "dive" "dive"

Я нашел эту ссылку ( stemDocment в пакете tm не работает над словом прошедшего времени ), но это может быть бесполезно в моем случаетак как мне пришлось бы обработать более 80 000 отзывов, и я, скорее всего, столкнусь с одной и той же проблемой с разными словами.

Я использую lemmatize_strings для набора данных, который у меня есть, но он дает точно такой же результат (хотя это немного очевидно).Может кто-нибудь помочь мне?

Заранее большое спасибо!

...