формат файла для анализа нескольких наборов данных с общими переменными - PullRequest
0 голосов
/ 03 марта 2020

У меня есть 25 наборов данных (в вычислительном отношении мал, по среднему измерению: (10 ^ 3, 10 ^ 2). Есть несколько общих переменных для всех этих наборов данных, наиболее важно subjectID для каждого назначения данных. Из-за природы данные, я не могу думать о том, как можно отформатировать это как простой объединенный конечный набор данных .csv для последующего анализа (машинное обучение в R с помощью Caret, хотя, если потребуется, я могу переключиться на python, если каркасы R этого не делают легко поддерживать форматы файлов.) Однако я пытался исследовать более мощные форматы файлов данных, которые могли бы позволить анализ без каких-либо мер и решить проблему изменения формы этого набора данных с помощью потенциально иерархического формата данных HDF или, возможно, json или. avro. Большинство этих форматов предназначены для работы с большими данными, что не является моей проблемой, а скорее я пытаюсь выполнить анализ нескольких небольших наборов данных из ключевой переменной ID.

Есть ли файл данных? форматы там подходят для этих нужд? (я не специалист по информатике Поэтому мои знания в этой области ограничены, поэтому я прошу прощения, если это неуместный вопрос для доски!)

...