Переменная, которую я хочу создать (числовая интенсивность в тексте), не заканчивается кодом, который я разработал в R при увеличении размера корпуса.
При включении 200 документов из корпуса [0: 200] выполнение кода приводит к ~ 9 секундам.При работе [0: 400] это занимает ~ 18 секунд.Но когда я использую [0: 500] или больше из корпуса, код не закончится.Весь корпус составляет около 6000 документов.
VAR2<-str_count(corpus1996[1:200], pattern="[0-9]+(?:.[0-9]+)*(?:%| percent| million| billion)")
VAR2<-str_count(corpus1996[1:400], pattern="[0-9]+(?:.[0-9]+)*(?:%| percent| million| billion)")
Я ожидаю, что должен быть код, который выполняется на моем целом образце [6000 документов], поэтому я могу экстраполировать его примерно на200 000 документов.