Question

У меня есть большое количество комментариев к опросам в свободном тексте, которые я пытаюсь проанализировать. Я использовал пакет texttem для выполнения лемматизации, но, посмотрев на идентифицированные им токены, я хотел бы внести дополнительные коррективы. Например, он определил «злоупотребления», «злоупотребление» и «злоупотребление» как лемму «злоупотребление», но оставил «злоупотребление» нетронутым ... Я хотел бы также изменить это на «злоупотребление».

Я нашел этот пост, в котором описано, как добавлять к лексикону по частям, например,

lemmas <- lexicon::hash_lemmas[token=="abusive",lemma:="abuse"]
lemmatize_strings(words, dictionary = lemmas)

, но в моем случае у меня будет фрейм данных с несколькими сотнями токенов. / лемма пар. Как я могу быстро добавить их все в словарь :: hash_lemmas?

jerH · Answer 1 · 08 января 2020

duh ...

new_lemmas <- read_csv("newLemmas.csv")
big_lemmas <- rbind(lexicon::hash_lemmas, new_lemmas)
big_lemmas <- big_lemmas[!duplicated(big_lemmas$token)]

, затем используйте big_lemmas в качестве словаря

Как я могу сделать большие дополнения к лексиконуекстема в R?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как я могу сделать большие дополнения к лексиконуекстема в R?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы