У меня есть пакет данных, который содержит текстовую переменную, заполненную текстом произвольной формы. Я пытаюсь извлечь определенную информацию, основанную на контексте в строке, в новые переменные, которые затем могу проанализировать.
Я копался в qdap
и tm
. Я унифицировал формат с tolower
и replace_abbreviation
, но не могу понять, как на самом деле извлечь нужную мне информацию.
Так, например,
library(data.table)
data<-data.table(text=c("Person 1: $1000 fine, 31 months jail",
"Person 2: $500 fine, 45 days jail"))
text
1: Person 1: $1000 fine, 31 months jail
2: Person 2: $500 fine, 45 days jail
То, что я хотел бы сделать, это извлечь числа на основе любого следующего термина, чтобы создать две дополнительные переменные, месяцы и дни, которые имеют соответствующие значения:
data<-data.table(text=c("Person 1: $1000 fine, 31 months jail",
"Person 2: $500 fine, 45 days jail"),
months=c("31",""),
days=c("","45")
text months days
1: Person 1: $1000 fine, 31 months jail 31
2: Person 2: $500 fine, 45 days jail 45
Я исследовал переполнение стека и не нашел ответов на этот вопрос, так что, надеюсь, я не пропустил ни одного. Но любая помощь, которую кто-либо может предложить, будет очень цениться. Все еще довольно новый в анализе текста.
Спасибо, что уделили время!