Допустим, у меня есть следующая строка символов
c(">Date of Procedure 01/09/2018<", ">Date of Procedure 01/10/2018<",
">Date of Procedure 03/09/2018<", ">Date of Procedure 04/09/2018<",
"Patient name Bilbo baggins", "Patient name: Jonny Begood",
"Patient name Elma Fudd", "Patient name Miss Puddleduck", "Patient name: Itsy Bitsy",
"Patient name: Lala", "Type of procedure: OGD", "Type of procedure: OGD",
"Type of procedure: Colonoscopy", "Type of procedure Colonoscopy",
"Type of procedure: Colonoscopy", "Label 35252", "Label 543 ",
"Label 5254 ", "Label 23", "Label 555555 ", "Label 54354")
Я хочу извлечь только те слова или фразы, которые разделяются между строками, так что результат должен быть: "Date of Procedure"
, "Patient name"
, "Type of procedure"
"Label"
. Я попытался использовать tidytext
, но это вынуждает меня сказать нужный мне размер n-граммы, тогда как могут быть общие фразы из одного, двух или трех слов.