Question

Я хотел бы разбить набор данных, состоящий из символьных строк, на столбцы, указанные в начале и конце.

Мой набор данных выглядит примерно так:

>head(templines,3)
[1] "201801 1  78"
[2] "201801 2  67"
[3] "201801 1  13"

и я хотел бы разделить его, указав мои столбцы, используя словарь данных:

>dictionary
col_name col_start col_end  
year      1         4  
week      5         6  
gender    8         8  
age       11        12

так становится:

year    week    gender    age
2018    01      1         78
2018    01      2         67
2018    01      1         13

В действительности данные поступают из длительного обследования, а пробелы между столбцами представляют переменные, которые больше не собираются. В нем много переменных, поэтому мне нужно решение, которое будет масштабироваться.

В tidyr::separate похоже, что вы можете разделить только указав позицию для разделения, а не начальную и конечную позиции. Есть ли способ использовать начало / конец?

Я думал сделать это с read_fwf, но я не могу использовать его в моем уже загруженном наборе данных. Мне только удалось заставить это работать, сначала экспортируя как текст, а затем читая из этого .txt:

write_lines(templines,"t1.txt")

read_fwf("t1.txt", 
     fwf_positions(start = dictionary$col_start,
                   end = dictionary$col_end,
                   col_names = dictionary$col_name)

возможно ли использовать read_fwf в уже загруженном наборе данных?

akrun · Answer 1 · 03 июля 2018

Мы могли бы использовать separate из tidyverse

library(tidyverse)
data.frame(Col = templines) %>% 
      separate(Col, into = dictionary$col_name, sep= head(dictionary$col_end, -1))
#  year week gender  age
#1 2018   01      1   78
#2 2018   01      2   67
#3 2018   01      1   13

Аргумент convert = TRUE также можно использовать с separate, чтобы иметь числовые столбцы в качестве вывода

tibble(Col = templines) %>% 
   separate(Col, into = dictionary$col_name, 
       sep= head(dictionary$col_end, -1), convert = TRUE)
# A tibble: 3 x 4
#   year  week gender   age
#  <int> <int>  <int> <int>
#1  2018     1      1    78
#2  2018     1      2    67
#3  2018     1      1    13

данные

dictionary <- structure(list(col_name = c("year", "week", "gender", "age"), 
col_start = c(1L, 5L, 8L, 11L), col_end = c(4L, 6L, 8L, 13L
)), .Names = c("col_name", "col_start", "col_end"),
 class = "data.frame", row.names = c(NA, -4L))

templines <- c("201801 1  78", "201801 2  67", "201801 1  13")

Thomas K · Answer 2 · 03 июля 2018

Отвечая на ваш вопрос напрямую: да, можно использовать read_fwf с уже загруженными данными. Соответствующая часть документации является частью об аргументе file:

Either a path to a file, a connection, or literal data (either a single string or a raw vector).
...
Literal data is most useful for examples and tests. 
It must contain at least one new line to be recognised as data (instead of a path).

Таким образом, вы можете просто свернуть ваши данные и затем использовать read_fwf:

templines %>% 
  paste(collapse = "\n") %>% 
  read_fwf(., fwf_positions(start = dictionary$col_start,
                            end = dictionary$col_end,
                            col_names = dictionary$col_name))

Это должно масштабироваться до нескольких столбцов и быстро для многих строк (на моем компьютере 1 миллион строк и четыре столбца примерно полсекунды).

Есть несколько предупреждений относительно ошибок разбора, но они вытекают из вашего словаря. Если вы измените последнюю строку на age, 11, 12, она будет работать как положено.

mt1022 · Answer 3 · 03 июля 2018

Решение с substring:

library(data.table)
x <- transpose(lapply(templines, substring, dictionary$col_start, dictionary$col_end))
setDT(x)
setnames(x, dictionary$col_name)
# > x
#    year week gender age
# 1: 2018   01      1  78
# 2: 2018   01      2  67
# 3: 2018   01      1  13

Onyambu · Answer 4 · 03 июля 2018

Использование базы R:

m = list(`attr<-`(dat$col_start,"match.length",dat$col_end-dat$col_start+1))

d = do.call(rbind,regmatches(x,rep(m,length(x))))

setNames(data.frame(d),dat$col_name)

  year week gender age
1 2018   01      1  78
2 2018   01      2  67
3 2018   01      1  13

ИСПОЛЬЗОВАННЫЕ ДАННЫЕ:

x = c("201801 1  78", "201801 2  67", "201801 1  13")

dat=read.table(text="col_name col_start col_end  
           year      1         4  
           week      5         6  
           gender    8         8  
           age       11        13 ",h=T)

Rage · Answer 5 · 03 июля 2018

Это явная функция, которая, кажется, работает так, как вы хотели.

split_func<-function(char,ref,name,start,end){
  res<-data.table("ID" = 1:length(char))
  for(i in 1:nrow(ref)){
    res[,ref[[name]][i] := substr(x = char,start = ref[[start]][i],stop = ref[[end]][i])]
  }
  return(res)
}

Я создал те же входные файлы, что и вы:

templines<-c("201801 1  78","201801 2  67","201801 1  13")
dictionary<-data.table("col_name" = c("year","week","gender","age"),"col_start" = c(1,5,8,11),
                       "col_end" = c(4,6,8,13))
#   col_name col_start col_end
#1:     year         1       4
#2:     week         5       6
#3:   gender         8       8
#4:      age        11      13

Что касается аргументов,
char - Вектор символов со значениями, которые вы хотите разделить
ref - Справочная таблица или словарь
name - Номер столбца в справочной таблице, содержащий имена столбцов, которые вы хотите
start - Номер столбца в справочной таблице, содержащий начальные точки
end - Номер столбца в справочной таблице, содержащий точки останова

Если я использую эту функцию с этими входами, я получаю следующий результат:

out<-split_func(char = templines,ref = dictionary,name = 1,start = 2,end = 3)

#>out
#   ID year week gender age
#1:  1 2018   01      1  78
#2:  2 2018   01      2  67
#3:  3 2018   01      1  13

Мне пришлось включить столбец «ID», чтобы инициировать таблицу данных и сделать это проще. Если вы захотите удалить его позже, вы можете просто использовать:

out[,ID := NULL]

Надеюсь, это ближе к решению, которое вы искали.

Amnon · Answer 6 · 03 июля 2018

Как насчет этого?

data.frame(year=substr(templines,1,4), 
           week=substr(templines,5,6), 
           gender=substr(templines,7,8), 
           age=substr(templines,11,13))

R разделить строки на столбцы, указанные в начале и конце

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

данные

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

R разделить строки на столбцы, указанные в начале и конце

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

данные

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы