Как я могу разбить строку, в которой запятой предшествуют как минимум два слова в R? - PullRequest
0 голосов
/ 06 августа 2020

Я работаю с текстовыми данными в R. Пытаясь очистить данные в фрейме данных, мне нужно разбивать строки каждый раз, когда есть запятая с как минимум двумя словами перед запятой.

Текущий формат данных (три столбца: ID, SUBJ и TEXTORIGINAL):

ID SUBJ TEXTORIGINAL

1 GHS Да, я думаю, просто следуйте ему, а затем, когда он говорит вам сделать настройки

2 GHS Если вы go увеличите масштаб в правом верхнем углу, там будет ваше имя

3 GHS. Будет показано ваше имя и адрес электронной почты, а затем рядом с ним будет написано лицензия

4 GHS Да, все, что мы можем сделать быстро, вы можете просто скопировать мои настройки правильно

Цель состоит в том, чтобы разделить текст на новые столбцы, если есть запятая, которой предшествуют как минимум два слова. Таким образом, строка 1 не изменится, но, как и 2 и 3, будут разделены на два столбца. Строка 4 будет разделена только по второй запятой, но не по первой. Важное примечание: я бы хотел сохранить исходный текстовый столбец.

в настоящее время я пытаюсь

отдельный (data = df, col = textoriginal, into = c ("sent1" , "sent2", "sent3", "sent4", "sent5"), sep = "(\ w + \ w +), (. *)", remove = FALSE), но код разделителя не дает того, что я хочу.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...