Хотя может показаться, что это было ранее решено в других вопросах , моя проблема немного сложнее.
Давайте начнем с примера, который я скопировал / вставил из Cal c лист:
Это минимальный воспроизводимый требуемый пример:
Label <- c("Catalog codes:" , "Themes:", "Size:", "Score:", "Buy Now:",
"Series:", "Catalog codes:", "Themes:", "Related items:", "Buy Now:",
"Catalog codes:", "Themes:", "Size:", "Score:",
"Series:", "Themes:", "Size:", "Score:", "Related items:",
"Catalog codes:", "Themes", "Size:", "Score:", "Related items:", "Buy Now:")
example <- as.data.frame(Label)
Часть имеющегося у меня кадра данных R столбец с таким столбцом (Label
) и множеством строк.
Дело в том, что группа строк принадлежит одной категории (скажем, Group 1
и т. д.). Вы можете идентифицировать различные группы на розовом и белом фоне на предыдущем изображении.
Хотя в каждой группе внутренний порядок меток, не все группы содержат одинаковые метки .
Однако начальная и конечная метки в каждой группе остаются одинаковыми , в зависимости от присутствующей метки. Вы можете видеть, что Catalog codes:
и Series:
начинают каждую группу, тогда как Buy Now:
, Score:
и Related items:
заканчивают каждую группу.
Я хотел бы создать второй столбец в этом кадре данных, который мог бы определить шаблоны или комбинации этих конечных / начальных меток, а затем классифицировать их. Результат может быть похож на это изображение: