В настоящее время я пытаюсь извлечь данные из строк, которые всегда имеют один и тот же формат (извлечено из социальных сайтов без поддержки API)
пример строк
53.2k Followers, 11 Following, 1,396 Posts
5m Followers, 83 Following, 1.1m Posts
В настоящее время я использую следующее выражение регулярного выражения:
"[0-9] {1,5} ([,]. [0-9] {1,4})?" чтобы получить числовые разделы, сохраняя разделитель запятой и точки.
Это дает результаты как
53.2, 11, 1,396
5, 83, 1.1
Мне действительно нужно регулярное выражение, которое будет также захватывать символ после числовых разделов, даже если это пробел. т.е.
53.2k, 11 , 1,396
5m, 83 , 1.1m
Любая помощь очень ценится
R код для воспроизведения
library(stringr)
string1 <- ("536.2k Followers, 83 Following, 1,396 Posts")
string2 <- ("5m Followers, 83 Following, 1.1m Posts")
info <- str_extract_all(string1,"[0-9]{1,5}([,.][0-9]{1,4})?")
info2 <- str_extract_all(string2,"[0-9]{1,5}([,.][0-9]{1,4})?")
info
info2