Я думаю, что вопрос об интервью не учитывает некоторые вещи, но, возможно, отчасти вопрос состоит в том, чтобы увидеть, как вы справляетесь с этим.
В любом случае, AI C - это, по сути, штрафное вычисление логарифмической вероятности. Вероятность записи велика - чем больше вероятность записи, тем лучше модель соответствует данным. Однако, если у вас достаточно свободных параметров, вы всегда можете повысить вероятность записи в журнал. Хм. Поэтому были предложены различные штрафные термины, которые противодействуют влиянию более свободных параметров. AI C (Информационный критерий Акаике) является одним из них.
Таким образом, проблема, как указано, заключается в том, что (1) найти логарифмическую вероятность для каждой из трех данных моделей (нормальная, экспоненциальная и Коши), (2) подсчитать свободные параметры для каждой, и (3) вычислить AI C из (1) и (2).
Теперь для (1) вам нужно (1a) найти или вывести оценку максимального правдоподобия для каждой модели. В норме это просто выборочное среднее и выборочная дисперсия. Я не помню других, но вы можете посмотреть их или отработать. Затем (1b) необходимо применить оценки к заданным данным, а затем (1 c) рассчитать вероятность или, что эквивалентно, логарифмическую вероятность оценочных параметров для данных данных. Логарифмическая вероятность любого значения параметра является просто суммой (log (p (x | params))), где params = параметры, оцениваемые по максимальной вероятности.
Что касается (2), для нормального есть 2 параметра распределение, мю и сигма ^ 2. Для экспоненты есть 1 (это можно назвать лямбда или тэта или что-то). Для Коши может быть параметр масштаба и параметр местоположения. Или, может быть, нет свободных параметров (по центру ноль и масштаб = 1). Таким образом, в каждом случае K = 1 или 2 или, может быть, K = 0, 1 или 2.
Возвращаясь к (1b), данные выглядят немного смешно для меня. Я ожидал бы одномерный список, но кажется, что массив является двухмерным (с 4 строками и 4 столбцами, если я посчитал правильно). Можно было бы go вернуться и спросить об этом. Если они действительно хотят иметь 4-мерные данные, то концептуальная основа остается той же, но вычисления будут немного сложнее, чем в 1-м случае.
Удачи и веселья, это хорошая проблема.