У меня есть большое количество комментариев к опросам в свободном тексте, которые я пытаюсь проанализировать. Я использовал пакет texttem для выполнения лемматизации, но, посмотрев на идентифицированные им токены, я хотел бы внести дополнительные коррективы. Например, он определил «злоупотребления», «злоупотребление» и «злоупотребление» как лемму «злоупотребление», но оставил «злоупотребление» нетронутым ... Я хотел бы также изменить это на «злоупотребление».
Я нашел этот пост, в котором описано, как добавлять к лексикону по частям, например,
lemmas <- lexicon::hash_lemmas[token=="abusive",lemma:="abuse"]
lemmatize_strings(words, dictionary = lemmas)
, но в моем случае у меня будет фрейм данных с несколькими сотнями токенов. / лемма пар. Как я могу быстро добавить их все в словарь :: hash_lemmas?