Question

Я использую скрытый семантический анализ для сходства текста. У меня есть 2 вопроса.

Как выбрать значение K для уменьшения размера?
Я много читаю везде, где эта БИС работает для сходных по смыслу слов, например, автомобиль и автомобиль. Как это возможно??? Какой магический шаг я здесь пропускаю?

David Jurgens · Answer 1 · 01 апреля 2011

Типичным выбором для k является 300. В идеале вы устанавливаете k на основе метрики оценки, в которой используются уменьшенные векторы. Например, если вы кластеризуете документы, вы можете выбрать k , который максимизирует оценку решения кластеризации. Если у вас нет эталона для сравнения, я бы установил k в зависимости от размера вашего набора данных. Если у вас есть только 100 документов, то вам не потребуется несколько сотен скрытых факторов для их представления. Аналогично, если у вас есть миллион документов, то 300 могут быть слишком маленькими. Однако, по моему опыту, полученные векторы достаточно устойчивы к большим изменениям k , при условии, что k не слишком мало (то есть k = 300 делает около а также k = 1000).
Возможно, вы путаете LSI с Скрытый семантический анализ (LSA). Это очень родственные методы, с той разницей, что LSI работает с документами, а LSA - со словами. Оба подхода используют один и тот же вход (термин x матрица документа). Есть несколько хороших реализаций LSA с открытым исходным кодом, если вы хотите попробовать их. Страница LSA в Википедии содержит полный список.

Aditya Mukherji · Answer 2 · 05 июля 2010

попробуйте несколько различных значений из [1..n] и посмотрите, что работает для любой задачи, которую вы пытаетесь выполнить
Составьте слово-матрица корреляции слов [т.е. ячейка (i, j) содержит количество документов, в которых (i, j) сосуществуют) и использует в ней что-то вроде PCA

Проблема для lsi

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Проблема для lsi

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы