Отрицательная способность DMR молотка к распределению топи c по признакам? - PullRequest
1 голос
/ 13 марта 2020

Я создал модель DMR Topi c (через Java API), которая рассчитывает распределение topi c на основе года публикации документов.

Полученное распределение немного сбивает с толку, поскольку существует множество отрицательных вероятностей . Иногда все вероятности для всего топи c являются отрицательными значениями. См .:

enter image description here

Q1: Почему существуют отрицательные значения? Наименьшая возможная вероятность распространения топи c для данной функции должна составлять не менее 0,0 ... Я думаю?

Дополнительно я строю модель LDA, где ModelLogLikelihood кажется сюрреалистичным. Я обучил модель почти 4 миллионам документов и 20 темам. Альфа = 1,0; Бета = 0,01; # повторений 1000;

Результаты в журнале Model-Log: -8.895651309362761E8

Q2: Может ли это значение быть правильным? Или я что-то не так делаю?

1 Ответ

1 голос
/ 14 марта 2020

Спасибо за использование DMR! LDA предполагает, что приоритетом для топи c для каждого документа является дистрибутив Дирихле. Параметры для K -мерного Дирихле являются K неотрицательными действительными числами. DMR-LDA генерирует документ c, предварительно определенный на основе свойств документа.

Q1: Это не вероятности, а коэффициенты регрессии. Если у вас есть документ с функцией 2014, значение для параметра Дирихле для topi c 1 с выражением exp(-4.5 + -0.25). Это параметр по умолчанию плюс смещение для 2014, построенное по экспоненте, чтобы сделать его неотрицательным. Эти значения эквивалентны примерно 0,01 для значения по умолчанию без дополнительных функций и 0,008 (78%) для 2014 года.

Q2: Это распространенная путаница! Ключ в том, что это log вероятность. Функция log пересекает 0 в 1, поскольку все, что находится в 0, равно 1. Лог любого значения меньше , чем 1, является отрицательным. Поскольку все вероятности меньше или равны единице, все log вероятности равны нулю или отрицательны. Другая вещь, которая часто удивляет людей, - насколько велики вероятности регистрации. Допустим, у вас есть языковая модель, в которой каждый токен слова независим, и вероятность того или иного слова обычно составляет около 1/1000. Поэтому логарифмическая вероятность одного слова составляет около -7.0. Совместная вероятность всей коллекции является произведением вероятностей токена, поэтому логарифм этой совместной вероятности является суммой -7. Я полагаю, в вашей коллекции около 100 миллионов токенов?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...