Я убираю междометия и щепки из протоколов парламентских сессий.Я преобразовал PDF в вектор, где каждый элемент содержит одну строку минут.
Используя регулярные выражения, я определил индексы строк, где начинается междометие (оно начинается с "(") и гдеон заканчивается (он заканчивается на ")"), что приводит к двум векторам равной длины.
Чтобы выяснить, какие линии отбрасывать, мне нужно создать новый вектор, содержащий как начальные и конечные точки, так и все линии между ними.
Какпример:
start <- c(1, 6, 9, 24)
end <- c(3, 7, 12, 27)
Результирующий вектор в этом случае должен быть эквивалентен:
interjections <- c(1,2,3,6,7,9,10,11,12,24,25,26,27)
или альтернативно:
interjection <- c(1:3, 6:7, 9:12, 24:27)
Я уверен, что есть простойспособ сделать это, но я просто не могу заставить его работать должным образом.Кто-нибудь может мне помочь?Спасибо!