Спасибо за использование DMR! LDA предполагает, что приоритетом для топи c для каждого документа является дистрибутив Дирихле. Параметры для K -мерного Дирихле являются K неотрицательными действительными числами. DMR-LDA генерирует документ c, предварительно определенный на основе свойств документа.
Q1: Это не вероятности, а коэффициенты регрессии. Если у вас есть документ с функцией 2014
, значение для параметра Дирихле для topi c 1 с выражением exp(-4.5 + -0.25)
. Это параметр по умолчанию плюс смещение для 2014, построенное по экспоненте, чтобы сделать его неотрицательным. Эти значения эквивалентны примерно 0,01 для значения по умолчанию без дополнительных функций и 0,008 (78%) для 2014 года.
Q2: Это распространенная путаница! Ключ в том, что это log вероятность. Функция log пересекает 0 в 1, поскольку все, что находится в 0, равно 1. Лог любого значения меньше , чем 1, является отрицательным. Поскольку все вероятности меньше или равны единице, все log вероятности равны нулю или отрицательны. Другая вещь, которая часто удивляет людей, - насколько велики вероятности регистрации. Допустим, у вас есть языковая модель, в которой каждый токен слова независим, и вероятность того или иного слова обычно составляет около 1/1000. Поэтому логарифмическая вероятность одного слова составляет около -7.0. Совместная вероятность всей коллекции является произведением вероятностей токена, поэтому логарифм этой совместной вероятности является суммой -7. Я полагаю, в вашей коллекции около 100 миллионов токенов?