Использовать логарифмическую правдоподобие для сравнения разных моделей молотковых топи c? - PullRequest
1 голос
/ 14 февраля 2020

Я пытаюсь выяснить, возможно ли - или каков наилучший способ - сравнить программно различные модели topi c, созданные с молотком , чтобы определить «наилучшую» модель подгонки для данного корпуса .

API предлагает метод для определения логарифмической вероятности сгенерированной модели. См. Например: # modelLogLikelihood ()

Afaik. Можно сравнивать различные модели на основе логарифмической вероятности удержанных данных. Но этот метод вычисляет вероятность ... всей модели, я полагаю? Я уже проверил исходный код , но это не принесло свет в темноту.

Итак, мой вопрос: подходит ли результат вышеупомянутого метода для сравнения различных алгоритмов моделирования topi c, таких как Hierarchical PAM, LDA, DMR, ..., чтобы выяснить, какая модель (теоретически) представляет корпус лучший способ?

1 Ответ

0 голосов
/ 15 февраля 2020

Целью расчета логарифмического правдоподобия является предоставление показателя c, сопоставимого для разных моделей. Тем не менее, я бы не рекомендовал использовать его таким образом.

Во-первых, если вы действительно заботитесь о предиктивной вероятности языковой модели, вам следует использовать одну из многих более поздних моделей глубоких нейронов.

Во-вторых, вероятность очень чувствительна к параметрам сглаживания, поэтому тот факт, что вы получаете постоянные различия, может быть просто артефактом ваших собственных настроек. Решения предварительной обработки, такие как токенизация и термины из нескольких слов, также могут оказывать большее влияние, чем выбор модели.

В-третьих, если вы действительно заинтересованы в выводе модели topi c, вы должны четко понимать, чего вы хотите от модель и какие характеристики модели делают ее полезной для ваших конкретных потребностей c. Мне нравится предлагать людям думать, что модель топи c больше похожа на создание карты, чем на подгонку регрессии. Наилучшее разрешение карты зависит от того, где вы хотите go.

Наконец, вам почти наверняка лучше с самой простой моделью.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...