Как определить мета-поля в моем дизайне базы данных? - PullRequest
0 голосов
/ 02 июля 2018

Я работаю с очень большим набором данных и хочу создать метатаблицу, содержащую метаданные о столбцах в наборе данных.

Например, для столбца int может потребоваться total, max-value, average-value, min-value и так далее. Таким образом, столбец "age" с миллионами записей о возрасте будет иметь мета-таблицу, которая содержит:

total = 1000000
max-value = 110
min-value = 4
average-value = 32
etcetera...

У меня есть столбцы int, boolean, string, date, float и date.

Вопрос
Где я могу найти / что будет список с основными метаданными для таких полей? или что я могу сделать больше, чем указано выше?

1 Ответ

0 голосов
/ 11 июля 2018

С статистической точки зрения int и float являются типичными зависимыми переменными (ось Y на диаграммах). Для них (для данного набора) вы рассчитываете статистические значения, такие как среднее арифметическое / геометрическое, медиана, стандартное отклонение, дисперсия и т. Д.

string, boolean и date обычно являются независимыми переменными (или регрессорами - ось X на диаграммах). Как таковые, они не должны быть описаны. Технически, вы можете вычислить медиану для набора логических значений или дат (вы можете считать их зависимыми), но в целом это не имеет особого смысла. В строковых столбцах вы можете рассчитать среднюю длину строки, количество различных символов, используемых в строке, или даже подсчитать прописные / строчные буквы. Но я действительно не думаю, что такая информация была бы полезна кому-либо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...