Таблица - Расчет и представление эпидемиологов c Уровень заболеваемости и заболеваемости / 10,000 - PullRequest
1 голос
/ 05 мая 2020

Я пытаюсь рассчитать заболеваемость (ежедневно), кумулятивную заболеваемость (за длительный период времени), частоту заболеваемости / 10 000 (ежедневно) и кумулятивную частоту заболеваемости / 10 000 (за длительный период времени) инфекционное заболевание. Это касается всей территории США, переменного числа штатов (далее обозначаемых как «i») и переменного числа округов в указанных штатах (далее обозначаемых как «j»). («Заболеваемость» - это количество случаев за определенный период времени, в данном случае за день.)

Данные находятся в таблице со столбцами «Дата», «Заболеваемость», «Совокупная заболеваемость». , «Заболеваемость / 10 000», «Кумулятивная заболеваемость / 10 000». Население для каждого штата и округа берется из справочной таблицы Бюро переписи населения, организованной по «Штатам», «Округам», «Населению» (выполняется программно с помощью JOIN для «Штат» и «Округ»).

Для заданного показателя (скажем, заболеваемости / 10 000) вычисление будет ('Incidence'/'Population') * 10,000.

Выполнение заболеваемости и совокупной заболеваемости в Таблице несложно - используя строки СУММ ('Заболеваемость') vs Столбцы «Дата» и Строки SUM («Совокупная заболеваемость») vs Столбцы «Дата».

Выполнение «Уровень заболеваемости / 1000» и «Совокупный коэффициент заболеваемости / 10 000» не так очевидно. Для США SUM («совокупная заболеваемость») имеет тенденцию к росту, как и ожидалось; SUM («Общий коэффициент заболеваемости / 10 000» возрастает до определенной степени, а затем выравнивается, размахивая взлетами и падениями; а SUM («Население») возрастает асимптотически, пока не достигнет «почти» общей численности населения США. Что я Думаю, я вижу, что измеряемая заболеваемость началась с небольшого района и продолжала расти до тех пор, пока почти (но не все, штаты и округа не будут задействованы (редкие округа не участвуют, но все штаты). СУММ («Население») на самом деле представляет собой Σij «Население» по i = Штату и j = Округу в любой день, а Σij «Совокупный коэффициент заболеваемости / 10 000» в данный день. То, что он не является, является Σij «Население» по i = Штат и j = Округ за все дни (AKA a Константа), которое доступно из справочной таблицы. И не зависит от даты.

Есть какие-нибудь мысли? (Я уверен, что есть простой ответ, но новичок в этом). Использование Tableau Desktop 2020.1.3

Заранее благодарю.

Ответы [ 2 ]

0 голосов
/ 11 мая 2020

Alex - Огромное спасибо !!!!

Ты провел меня на 90% пути туда. Ваша формула вызвала ошибку с жалобой на то, что SUM([Incidence] является агрегированным, а {FIXED [State], [County] : MAX([Population])} - нет. Это исправление должно было превратить это в MAX({FIXED [State], [County] : MAX([Population])}), который является агрегированным (не имело значения, использует ли он MAX(), MIN() или AVG(), поскольку вы изначально предложили MAX([Population], я использовал это). Учитывая, что цифры небольшие, в этом случае я решил умножить на 10 000, чтобы получить коэффициент заболеваемости / 10 000 человек (это обычное дело в эпидемиологии для сравнения заболеваемости среди различных размеров населения для «нормализации» относительного риска). В итоге формула стала следующей:

(SUM([Incidence]) * 10000) / MAX({FIXED [State], [County] : MAX([Population])})

Это соответствует табличным данным, рассчитанным как ([Incidence] * 10000) / [Population] для каждого штата и округа.

0 голосов
/ 06 мая 2020

Похоже, вам может потребоваться агрегированное вычисляемое поле или вычисляемое поле уровня детализации (LOD).

Попробуйте включить в расчет функции агрегирования, например, SUM([Incidence]) / SUM([Population]) Этот расчет сначала вычисляет суммы, а затем делит их в конце вместо вычисления отношения для каждой записи и последующего суммирования крысы ios. Это часто бывает необходимо при работе с rat ios.

Более того, я ожидаю, что ваши значения Population не меняются каждый день, поэтому, если вы просто агрегируете их с помощью Sum (), как указано выше, вы увеличите знаменатель. В этом случае вам необходимо сначала вычислить популяцию на другом уровне детализации, используя расчет LOD. Примером формулы в этом случае будет что-то вроде

SUM([Incidence]) / { FIXED [State], [County] : MAX([Population])}

Трудно сказать, какую формулу можно рекомендовать без каких-либо образцов данных, но, вероятно, она похожа на приведенную выше.

...