Quanteda Version изменение чтения дефисов - PullRequest
0 голосов
/ 13 июля 2020

Я настроил блок кода для обработки корпуса выступлений с помощью quantsa. Версии, которые я использовал для кодирования, были Quanteda 1.5.2 под R версии 3.6.1.

Теперь я обновился до R 4.0.0 с quanteda_2.0.1, и мой код для преобразования текстовых данных в корпус работает неправильно. Функция corpus вводит двойной пробел перед дефисом и после него, что является проблемой для меня, потому что позже я разделил корпус на абзацы, разделенные двойными пробелами. Я вижу, что между двумя дефисами есть разница, но в старой версии quanteda дефисы обрабатывались одинаково, и двойной пробел не вводился.

Вот минимальный рабочий пример:

test1 <- " further steps – especially in"
test2 <- " further steps - especially in"

test1_corp <- corpus(test1)
test2_corp <- corpus(test2)
> test1_corp 
Corpus consisting of 1 document.
text1 :
" further steps  -  especially in"

> test2_corp
Corpus consisting of 1 document.
text1 :
" further steps - especially in"                                       

...