Я пытаюсь получить несколько результатов summary () из кадра данных. Я хочу несколько раз разбить подмножество по некоторым характеристикам. Затем получите summary () определенной переменной для каждого среза и объедините все результаты summary () либо в фрейм данных, либо в списке.
В идеале я хотел бы получить имя каждого building_id, которое я использую для среза данные как имя для этой строки сводки (). Поэтому я подумал об использовании a для l oop.
Данные достаточно большие (около 20 м. Строк), и я использую фреймы данных train и building_metadata, объединенные в один из прогноза энергии ашраев от kaggle здесь
Я создал тиббл, который содержит идентификаторы зданий, которые я хочу использовать. Я хочу получить сводку () переменной «energy_sqm» (которую я уже создал), поэтому я пытаюсь поместить этот фрагмент в для l oop:
Предупреждение 1. Мой столбец building_id имеет значения например 50, 67, 778, 1099 и т. д. c. Итак, одна из моих проблем связана с использованием этих чисел, если я попытаюсь использовать их для какой-то индексации или наименования моих итоговых результатов. Я думаю, что он пытается создать строку 50, 67 и c в нескольких разных испытаниях, которые я сделал.
summaries_output <- tibble() # or list() `
for (id in building_id){
temp_stats <- joined %>%
filter(building_id == "id") %>%
pull(energy_sqm) %>%
summary() %>%
broom:tidy()
summaries_output <- bind_rows(summaries_output, temp_stats, .id = "id")
`
Мои проблемы:
a) что угодно summaries_output, который я использую для инициализации, я не могу заставить его сохранить что-либо внутри l oop, поэтому я предполагаю, что я испортил также l oop.
b) В идеале я хотел бы иметь building_id как идентификатор Summary () statisti c
c) Может ли кто-нибудь предложить, каков принцип хорошей практики для таких циклов с точки зрения использования списка, таблицы или чего-то еще.
Подробности: класс () summary () равен "summaryDefault" "table"
, о котором я ничего не знаю.
Спасибо за помощь.