Является ли латентное семантическое индексирование (LSI) алгоритмом статистической классификации? - PullRequest
2 голосов
/ 28 октября 2009

Является ли скрытое семантическое индексирование (LSI) алгоритмом статистической классификации? Почему или почему нет?

По сути, я пытаюсь выяснить, почему на странице Википедии для статистической классификации не упоминается LSI. Я просто разбираюсь в этом и пытаюсь понять, как различные подходы для классификации чего-либо связаны друг с другом.

Ответы [ 4 ]

5 голосов
/ 28 октября 2009

Нет, они не совсем одинаковые. Статистическая классификация предназначена для максимально четкого разделения предметов на категории - для принятия четкого решения о том, является ли предмет Х более похожим, например, на предметы в группе А или группе В.

БИС предназначена для отображения степени, в которой элементы похожи или различаются, и, прежде всего, для поиска элементов, которые показывают степень сходства с указанным элементом. Хотя это похоже , это не совсем то же самое.

3 голосов
/ 28 октября 2009

LSI / LSA - это в конечном итоге метод уменьшения размерности , который обычно объединяется с алгоритмом ближайшего соседа, чтобы превратить его в систему классификации. Следовательно, сам по себе это единственный способ «индексировать» данные в более низком измерении, используя SVD.

1 голос
/ 28 октября 2009

Основное различие в машинном обучении - это моделирование "под наблюдением" и "без присмотра".

Обычно слова «статистическая классификация» относятся к контролируемым моделям, но не всегда.

При использовании контролируемых методов в обучающем наборе есть метка «наземная правда», которую вы строите для прогнозирования модели. Когда вы оцениваете модель, цель состоит в том, чтобы предсказать наилучшую догадку (или распределение вероятностей) истинной метки, которой у вас не будет во время оценки. Часто есть метрика производительности, и совершенно ясно, что правильный ответ против неправильного.

Неуправляемые методы классификации пытаются объединить большое количество точек данных, которые могут сложным образом варьироваться в меньшее количество «похожих» категорий. Данные в каждой категории должны быть похожи в каком-то «интересном» или «глубоком» смысле. Поскольку нет «наземной правды», вы не можете оценить «правильно или неправильно», но «больше» против «меньше» интересно или полезно.

Аналогичным образом, во время оценки вы можете поместить новые примеры в потенциально один из кластеров (четкая классификация) или дать какое-то взвешивание, количественно определяющее, насколько сходные или разные выглядят как «архетип» кластера.

Таким образом, в некоторых случаях контролируемые и неконтролируемые модели могут давать что-то, что является «предсказанием», предсказанием метки класса / кластера, но по сути они различны.

Зачастую целью неконтролируемой модели является предоставление более интеллектуальных и мощно компактных входов для последующей контролируемой модели.

1 голос
/ 28 октября 2009

Вы читали о LSI в Википедии ? Он говорит, что использует матричную факторизацию ( SVD ), которая, в свою очередь, иногда используется в классификации.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...