Схема проектирования для текущего обследования - PullRequest
1 голос
/ 08 февраля 2010

Я делаю постоянный опрос, каждый квартал. Мы заставляем людей подписаться (где они дают обширную демографическую информацию).

Затем мы даем им возможность ответить на шесть коротких вопросов с 5 возможными значениями, намного хуже, хуже, так же, лучше, намного лучше.

Конечно, со временем мы не получим тех же участников, некоторые выпадут, а некоторые подпишутся, поэтому я пытаюсь решить, как лучше построить базу данных и код (надеюсь использовать Python, Numpy?), Чтобы лучше обеспечить непрерывный сбор и анализ по различным категориям, определенным исходными демографическими данными. На данный момент у нас около 700 участников, поэтому набор данных не слишком большой. т.е. .; демографический, UID, север, юг, жилой. реклама Тогда ответь на 6 вопросов за первый квартал То же самое для Q2 и т. Д., Затем нужно уметь нарезать кубики и усреднить значения для квартальных ответов по разным демографическим показателям, чтобы увидеть тенденции во времени.

Усреднение, группировка и т. Д. Скромно усложняются наличием разных участников в каждом квартале

Есть какие-нибудь указатели для разработки шаблонов для такого рода БД? а анализ? Это разреженная матрица?

Ответы [ 3 ]

2 голосов
/ 09 февраля 2010

Что касается части вашего вопроса, касающейся анализа опроса, я настоятельно рекомендую посмотреть пакет опроса в R (который включает в себя ряд полезных виньеток, в том числе «Пример анализа обследования» ). Подробнее об этом можно прочитать на веб-странице «Анализ опроса в R» . В частности, вы можете захотеть взглянуть на страницу, озаглавленную Объекты опроса на основе базы данных , которая охватывает тему работы с очень большими данными опроса.

Вы можете интегрировать этот анализ в Python с RPy2 при необходимости.

1 голос
/ 08 февраля 2010

Это хранилище данных. Небольшое, но хранилище данных.

У вас есть схема * Star .

У вас есть факты:

  • значениями ответа являются меры

У вас есть размеры:

  • период времени. У него много атрибутов (год, квартал, месяц, день, неделя и т. Д.). Это измерение позволяет вам накапливать неограниченное количество ответов на ваш опрос.

  • вопрос. Это имеет некоторые атрибуты. Как правило, ваши вопросы относятся к категориям или линиям продуктов или фокус или что-то еще. В этом измерении может быть много столбцов с вопросом "категория".

  • участник. Каждый участник имеет уникальные атрибуты и ссылку на демографическую категорию. Ваша демографическая категория может - очень просто - перечислить ваши демографические комбинации. Это измерение позволяет вам отслеживать респондентов или их демографические категории во времени.

А вот набор инструментов хранилища данных Ральфа Кимбалла и следуйте этим шаблонам проектирования. http://www.amazon.com/Data-Warehouse-Toolkit-Complete-Dimensional/dp/0471200247
Купить книгу. Абсолютно важно, чтобы вы полностью поняли все это, прежде чем идти по неверному пути.

Кроме того, поскольку вы занимаетесь хранилищем данных. Посмотрите на все вопросы по [хранилищу данных] о переполнении стека. Прочитайте каждый БЛОГ хранилищ данных, который вы можете найти.

Существует только один соответствующий шаблон проектирования - Схема . Если вы понимаете это, вы понимаете все.

0 голосов
/ 08 февраля 2010

При анализе, если ваши шесть вопросов были сформулированы таким образом, что это заставило бы вас поверить, что ответы будут коррелированными, сначала подумайте о проведении факторного анализа необработанных баллов. Часто сравнение факторов по регионам или типам клиентов имеет большую статистическую силу, чем сравнение по отдельным вопросам. Кроме того, коэффициенты оценок, скорее всего, будут распределены нормально (они представляют собой взвешенную сумму 6 наблюдений), тогда как только шесть вопросов не будут. Это позволяет применять t-тесты на основе нормального распределения при сравнении факторных оценок.

Одна настороженность, хотя. Если вы присваиваете числовые значения ответам - 1 = намного хуже, 2 = хуже и т. Д., Вы подразумеваете, что расстояние между гораздо хуже и хуже равно расстоянию между хуже и хуже. Как правило, это неправда - вам, возможно, действительно придется облажаться, чтобы получить голос «намного хуже», в то время как пассивный провал может принести вам «худший» результат. Таким образом, присвоение кардинала (чисел) порядку (упорядочению) имеет свою предвзятость.

Неравное количество участников в квартал не является проблемой - существуют статистические t-тесты, которые имеют дело с неравными размерами выборки.

...