Лучше иметь несколько столбцов или один столбец с несколькими значениями в CSV? - PullRequest
1 голос
/ 01 апреля 2020

У меня есть файл CSV, который содержит данные анализа размера зерна. Тип данных не особенно важен для моего вопроса - я думаю, что вопрос относится к таблицам значений данных в целом. Один из столбцов («mode in phi»), который возвращается из лабораторного анализа, может содержать несколько значений, если образец является мультимодальным. Обычно наибольшее количество значений режима составляет 3.

. Лучше ли хранить значения в виде списка в одном столбце или нескольких столбцах с одним значением в каждом столбце (с "NA" при необходимости) для этого тип структуры данных? Есть ли другой вариант, о котором я не знаю?

Плюсы и минусы, которые я рассмотрел:
Плюсы одного столбца: приятно иметь один столбец, значения разделяются точкой с запятой, поэтому их легко различить из столбцов, разделенных запятыми, и может быть проанализирован программно.
Минусы в одном столбце: меньше машиночитаемых, потому что ячейка читается как строка, а не числа.
Плюсы из нескольких столбцов: каждая ячейка имеет одно значение, поэтому ее легко прочитайте.
Минусы с несколькими столбцами: как пользователь / машина узнает, сколько столбцов в «режиме» будет - может отличаться в разных наборах данных. Потенциально может расшириться до многих столбцов. Множество значений "NA".

После поиска в Google я увидел этот пост и прочитал о первой нормальной форме (FNF), но я не уверен, если FNF применяется к одному CSV-файлу, а не к реляционной базе данных. Существуют ли другие стандарты или рекомендации для CSV для отдельных файлов данных?

Я знаю, что в SO много похожих вопросов, но в основном о том, как разделить несколько значений или вопросов, определенных c, на базы данных. Я не мог найти ничего особенного для одного CSV.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...