Создать блокпост из% s из таблицы категориальных данных в R - PullRequest
0 голосов
/ 24 ноября 2018

Я пытаюсь найти быстрый и грязный способ преобразования моего файла Excel, который включает в себя 4 категориальных IV (предмет, сложность, gr / ungr, group) и категорический DV (правильность) в формат, который позволит мнесоздайте коробочный график, используя ggplot2 или gformula в R. Это позволило бы мне построить процент правильности, а не число правильностей, как, например, в мозаичном графике.

Довольно медленный способ, которым я до сих пор занимался, - это разделение данных на несколько небольших таблиц, содержащих данные только для переменных субъекта и корректности, последовательно разделяемых по сложности, гр / унг и групповым переменным, которые язатем загружайте в R по одному, например так:

grL2caus <-read.csv ("/ Users / frankromano / Box Sync / материал постдока / основное исследование / excelfiles / grL2caus.csv",header = T) </p>

grL2causa <-table (grL2caus) </p>

round (prop.table (grL2causa, 2), 2)

тема

правильность предмет 29 предмет 34 предмет 38 предмет 41 предмет 43 предмет 48 предмет 51 предмет 52 предмет 54 предмет 55 предмет 56 правильное 0,86 1,00 1,00 0,88 1,00 0,8 1,00 1,00 1,00 1,00 неправильное 0,14 0,00 0,00 0,12 0,00 0,17 0,00 0,50 0,00 0,00 0,00

Обратите внимание, что на правильном дисплее можно увидеть правильный и неправильный% под каждым столбцом темы, который в сумме составляет 100. Это создает ряд правильности x субъект cРосстабы, которые я могу легко использовать, чтобы получить% правильных и неправильных для каждого предмета и сообщить о них в новый файл Excel, который содержит% точности для категориальной DV «правильности» для каждого предмета (IV предмет с 42 уровнями).Это было необходимо, потому что подача всех переменных в функцию round (prop.table) приводит к слишком большому количеству перекрестных таблиц на выходе, учитывая, что 4 DV имеют 42, 3, 2 и 3 уровня соответственно.

Впоследствии я снова подаю новый лист Excel в R и создаю блокпост, например:

ajtaccuracy <-read.csv ("/ Users / frankromano / Box Sync /материал постдока / основное исследование / excelfiles / ajtaccuracy.csv ", header = T) краткое содержание (ajtaccuracy) сложность предметной группы gr.ungr процент.точность предмета 10: 3 HS: 36 причина: 41 gr: 123 мин.: 0,0000 <br>предмет 11: 3 L2: 33 лексический: 41 1-й Qu.:0.8600
предмет 12: 3 NS: 54 модальный + V: 41 Медиана: 1,0000
предмет 13: 3 Среднее: 0,9058
предмет 14: 3 3-й вопрос: 1,0000
предмет 15: 3 Макс.: 1.0000
(Другое): 105
p <- ggplot (ajtaccuracy, aes (x = процент.точность, y = группа)) + + geom_boxplot () </p>

Спасибо взаранее за любую помощь!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...