Question

Итак, у меня есть шесть больших наборов данных, каждый из которых начинается с 250 предикторов (все одинаковые начальные предикторы для каждого).Выполняется алгоритм, который удаляет предиктор из набора данных, если он не соответствует определенному критерию.

Так, например, существует предиктор под названием X.50T

X.50T может быть удалениз первого набора данных и второго, но не могут быть удалены из других.То же самое верно для всех других предикторов.

Я хочу знать, какие предикторы содержатся во всех шести моих наборах данных.

Как это можно сделать в R?

По сути, каждый набор данных соответствует столбцу результатов ($ d_ {i} $)

Т.е. у меня есть шесть наборов данных, шесть столбцов, $ d_ {1} $, $ d_ {2} $, $ d_ {3} $, $ d_ {4} $, $ d_ {5} $ и $ d_ {6} $

Я хочу создать новый фрейм данных, содержащий шесть вышеприведенных столбцовИ предикторы, но только предикторы, которые появились во ВСЕХ шести наборах данных.

Каждый из шести наборов данных имеет от 1800 до 2000 строк.Каждый соответствует имени строки.Я также хочу включить только те строки, для которых это наблюдение встречается во всех шести.Например, у фрейма данных есть "row.names" 1,2,3 .... 2000 с некоторыми пропущенными между ними.Если я скажу наблюдение, соответствующее названию строки "150" во всех шести наборах данных, я хочу включить, если оно отсутствует хотя бы в одном, я хочу исключить.

Так, например, скажем, из250 предикторов, только 200 появляются во всех шести наборах данных.Количество наблюдений составляет около 2000. Таким образом, я хотел бы использовать матрицу 2000 на 206 в качестве моего нового фрейма данных.Но тогда я хочу включить только те строки, которые появились во всех шести, поэтому это может быть меньший фрейм данных, скажем, 1800 x 206

Спасибо

coffeinjunky · Answer 1 · 12 октября 2018

Чтобы получить имена столбцов в кадре данных, сначала используйте names или colnames, как в

cols <- colnames(df)

Чтобы получить пересечение имен столбцов, используйте intersect.Например:

first <- c("Espresso", "Flat White", "Americano")
second <- c("Americano", "Espresso", "Tea")
intersect(first, second)
[1] "Espresso"  "Americano"

Чтобы сделать это хорошо для нескольких векторов имен столбцов, попробуйте Reduce

third <- fourth <- fifth <- sixth <- first[-1]
third
[1] "Flat White" "Americano" 

final_columns <- Reduce(intersect, list(first, second, third, fourth, fifth, sixth))
final_columns 
[1] "Americano"

Чтобы вручную добавить несколько столбцов «вручную», используйте c(), как в

final_columns <- c("Bulletproof Coffee", final_columns)

После того, как это будет сделано, просто поместите в исходный фрейм данных:

newdf <- original_df[, final_columns]

То же самое можно сделать для имен строк, хотя есть и другие способы, например, внутреннийприсоединяется или merge s для достижения того же результата.В любом случае вышеизложенное должно дать вам представление о том, как достичь желаемого результата.

Создание нового фрейма данных по критерию R-фитинга

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Создание нового фрейма данных по критерию R-фитинга

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов