оптимизация проверки орфографии в qdap - PullRequest
0 голосов
/ 29 апреля 2019

Я использую qdap для проверки орфографии 300 000 страниц, а затем для получения 5000 самых распространенных ошибок заклинаний.

Я использовал следующий код:

library(qdap) 
Content <- as.vector(mydata$text2)
df <- check_spelling(Content, n.suggest = 0)                        

n_misspelled <- as.vector(table(factor(df$row, levels = Row)))

data.frame(Content, n_misspelled)

, но он возвращает словатакие как «устойчивость», «мягкая обложка», «местожительство» или «внештатный сотрудник» в качестве ошибок заклинания, которые являются очень распространенным словом, написанным по буквам.

Могу ли я попросить его использовать полный словарь английского языка?или ослабить правила, такие как требование заглавной буквы в начале предложения?Любые другие пакеты, которые могут помочь с проверкой орфографии?

Спасибо

...