Алгоритм автоматической пометки - PullRequest
2 голосов
/ 20 декабря 2010

Кто-нибудь знает, как построить алгоритм автоматической пометки (пост / документ)? Любой пример будет оценен.

Ответы [ 2 ]

0 голосов
/ 14 мая 2014

Поздний ответ, но у него тоже была задача для курса - поэтому, если кто-то еще хочет изучить это, вот отправная точка:

Если вы ищете простые решения или, возможно, в качестве машинного обученияВ этом упражнении вы можете рассматривать автоматическую пометку как задачу классификации / классификации текста.Наивные байесовские классификаторы - это простые инструменты для понимания, и для их понимания есть множество псевдокодов и материалов.Показатель TFIDF (термин «частота, обратная частоте документа») - это еще кое-что, на что вы можете обратить внимание - хотя обычно оно связано с поиском информации, его можно решить для этой проблемы в сочетании с другими методами машинного обучения.

Однако вместо того, чтобы назначать новому образцу одну метку на основе определения классификатора NB, вам придется определить несколько меток.Вероятно, вы можете использовать информацию о совпадении тегов из учебного набора, чтобы помочь вам в этом.

Это упрощенное и наивное решение, и есть много подробностей о выборе функций (которые сводятся к сокращению независимых параметров, получению информации и т. Д.).Множество легкодоступных статей по этой теме исследования, чтобы попробовать!

0 голосов
/ 02 февраля 2011

Я согласен с тем, что говорит Вубл.Однако наивное решение состоит в том, чтобы просто написать алгоритм, который вычисляет лексические сходства и различия данного поста в блоге по сравнению с корпусом текста.Это лексическое различие даст вам слова, которые встречаются в блоге чаще, чем в корпусе.И из этих слов вы можете сделать вывод о теге.

Но я настоятельно рекомендую против этого.Автоматическая пометка, кажется, не работает на практике.Просто передайте работу по тегированию своим пользователям или сервисам, таким как Mechanical Turk

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...