Я работаю с текстовыми данными в R. Пытаясь очистить данные в фрейме данных, мне нужно разбивать строки каждый раз, когда есть запятая с как минимум двумя словами перед запятой.
Текущий формат данных (три столбца: ID, SUBJ и TEXTORIGINAL):
ID SUBJ TEXTORIGINAL
1 GHS Да, я думаю, просто следуйте ему, а затем, когда он говорит вам сделать настройки
2 GHS Если вы go увеличите масштаб в правом верхнем углу, там будет ваше имя
3 GHS. Будет показано ваше имя и адрес электронной почты, а затем рядом с ним будет написано лицензия
4 GHS Да, все, что мы можем сделать быстро, вы можете просто скопировать мои настройки правильно
Цель состоит в том, чтобы разделить текст на новые столбцы, если есть запятая, которой предшествуют как минимум два слова. Таким образом, строка 1 не изменится, но, как и 2 и 3, будут разделены на два столбца. Строка 4 будет разделена только по второй запятой, но не по первой. Важное примечание: я бы хотел сохранить исходный текстовый столбец.
в настоящее время я пытаюсь
отдельный (data = df, col = textoriginal, into = c ("sent1" , "sent2", "sent3", "sent4", "sent5"), sep = "(\ w + \ w +), (. *)", remove = FALSE), но код разделителя не дает того, что я хочу.