Я настроил блок кода для обработки корпуса выступлений с помощью quantsa. Версии, которые я использовал для кодирования, были Quanteda 1.5.2 под R версии 3.6.1.
Теперь я обновился до R 4.0.0 с quanteda_2.0.1, и мой код для преобразования текстовых данных в корпус работает неправильно. Функция corpus вводит двойной пробел перед дефисом и после него, что является проблемой для меня, потому что позже я разделил корпус на абзацы, разделенные двойными пробелами. Я вижу, что между двумя дефисами есть разница, но в старой версии quanteda дефисы обрабатывались одинаково, и двойной пробел не вводился.
Вот минимальный рабочий пример:
test1 <- " further steps – especially in"
test2 <- " further steps - especially in"
test1_corp <- corpus(test1)
test2_corp <- corpus(test2)
> test1_corp
Corpus consisting of 1 document.
text1 :
" further steps - especially in"
> test2_corp
Corpus consisting of 1 document.
text1 :
" further steps - especially in"