Question

Я создал модель DMR Topi c (через Java API), которая рассчитывает распределение topi c на основе года публикации документов.

Полученное распределение немного сбивает с толку, поскольку существует множество отрицательных вероятностей . Иногда все вероятности для всего топи c являются отрицательными значениями. См .:

Q1: Почему существуют отрицательные значения? Наименьшая возможная вероятность распространения топи c для данной функции должна составлять не менее 0,0 ... Я думаю?

Дополнительно я строю модель LDA, где ModelLogLikelihood кажется сюрреалистичным. Я обучил модель почти 4 миллионам документов и 20 темам. Альфа = 1,0; Бета = 0,01; # повторений 1000;

Результаты в журнале Model-Log: -8.895651309362761E8

Q2: Может ли это значение быть правильным? Или я что-то не так делаю?

David Mimno · Answer 1 · 14 марта 2020

Спасибо за использование DMR! LDA предполагает, что приоритетом для топи c для каждого документа является дистрибутив Дирихле. Параметры для K -мерного Дирихле являются K неотрицательными действительными числами. DMR-LDA генерирует документ c, предварительно определенный на основе свойств документа.

Q1: Это не вероятности, а коэффициенты регрессии. Если у вас есть документ с функцией 2014, значение для параметра Дирихле для topi c 1 с выражением exp(-4.5 + -0.25). Это параметр по умолчанию плюс смещение для 2014, построенное по экспоненте, чтобы сделать его неотрицательным. Эти значения эквивалентны примерно 0,01 для значения по умолчанию без дополнительных функций и 0,008 (78%) для 2014 года.

Q2: Это распространенная путаница! Ключ в том, что это log вероятность. Функция log пересекает 0 в 1, поскольку все, что находится в 0, равно 1. Лог любого значения меньше , чем 1, является отрицательным. Поскольку все вероятности меньше или равны единице, все log вероятности равны нулю или отрицательны. Другая вещь, которая часто удивляет людей, - насколько велики вероятности регистрации. Допустим, у вас есть языковая модель, в которой каждый токен слова независим, и вероятность того или иного слова обычно составляет около 1/1000. Поэтому логарифмическая вероятность одного слова составляет около -7.0. Совместная вероятность всей коллекции является произведением вероятностей токена, поэтому логарифм этой совместной вероятности является суммой -7. Я полагаю, в вашей коллекции около 100 миллионов токенов?

Отрицательная способность DMR молотка к распределению топи c по признакам?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Отрицательная способность DMR молотка к распределению топи c по признакам?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы