Вероятностный скрытый семантический анализ / Индексирование - Введение - PullRequest
5 голосов
/ 26 июня 2011

Но недавно я нашел эту ссылку весьма полезной для понимания принципов АЛП без особой математики.http://www.puffinwarellc.com/index.php/news-and-articles/articles/33-latent-semantic-analysis-tutorial.html. Это хорошая основа для дальнейшего развития.

В настоящее время я ожидаю аналогичного введения в вероятностный скрытый семантический анализ / индексирование.Меньше математики и больше примеров, объясняющих принципы, стоящие за ней.Если вы знаете такое введение, пожалуйста, дайте мне знать.

Может ли оно быть использовано для определения степени сходства между предложениями?Он обрабатывает многозначность?

Существует ли реализация Python для того же самого?

Спасибо.

1 Ответ

7 голосов
/ 28 июля 2011

Есть хороший доклад Томаса Хофмана , который объясняет как LSA, так и его связи с вероятностным латентным семантическим анализом (PLSA).В лекции есть математика, но за ней гораздо легче следовать, чем в статье PLSA (или даже на ее странице в Википедии).

PLSA можно использовать для получения некоторой меры сходства между предложениями, поскольку два предложения можно рассматривать как короткие документы, взятые из распределения вероятностей по скрытым классам.Ваше сходство будет сильно зависеть от вашего тренировочного набора.Документы, которые вы используете для обучения модели скрытого класса, должны отражать типы документов, которые вы хотите сравнить.Генерация модели PLSA с двумя предложениями не создаст значимых скрытых классов.Точно так же обучение с корпусом очень похожих контекстов может создать скрытые классы, которые слишком чувствительны к небольшим изменениям в документах.Более того, поскольку предложения содержат относительно немного токенов (по сравнению с документами), я не верю, что вы получите высококачественные результаты сходства от PLSA на уровне предложений.

PLSA не обрабатывает многозначности.Однако, если вас интересует многозначность, вы можете попробовать запустить инструмент устранения неоднозначности смысла слова над вводимым текстом, чтобы пометить каждое слово в правильном смысле.Запуск PLSA (или LDA) над этим помеченным корпусом удалит эффекты полисемии в результирующих представлениях документов.

Как отметил Шармила, распределение скрытых дирихлетов (LDA) считается современным для сравнения документов, ипревосходит PLSA, который имеет тенденцию превышать данные тренировки.Кроме того, существует множество инструментов для поддержки LDA и анализа значимости результатов, полученных с LDA.(Если вы любите приключения, вы можете прочитать две статьи Дэвида Мимно из EMNLP 2011 о том, как оценить качество скрытых тем, которые вы получаете от LDA.)

...