Автоматическая организация тегов в налоговой / фольксономии - PullRequest
0 голосов
/ 13 мая 2010

Я работаю над процессом, который будет выполнять обработку естественного языка (NLP) на одном - и, возможно, на нескольких - наших сайтах с богатым контентом. Что я хотел бы сделать после завершения НЛП, так это автоматически организовать выходные данные (обычно набор терминов, которые вы можете рассматривать как теги с учетом распространенности этой метафоры) в некую стандартную или общепринятую организационную структуру.

В идеальном мире мне бы очень хотелось, чтобы это происходило из концепции фолксономии (в отличие от таксономии), поскольку конечной целью является нацеливание / обращение к реальным людям, а не к «экспертам в области», но я Я открыт для идей и лучших практик. Для очевидной цели масштабируемости, я хотел бы автоматизировать заполнение этой налоговой / фольксономии так, чтобы «какой-то парень» в команде / организации не отвечал за просмотр набора слов (с контекстом или без) и произвольно уточнение контекстуальных компонентов дерева.

У меня есть несколько идей для этого, которые требуют некоторых исследований, чтобы установить жизнеспособность, но у меня практически нет практического опыта с такими вещами, поэтому идеи действительно сводятся к тому, что я придумал, что может сыграть определенную роль в достижении задание. Представляя, что у других гораздо больше опыта в подобных вещах, я надеюсь, что смогу встать на твои плечи.

Спасибо за ваши мысли и идеи.

Практический пример

Я запустил НЛП против статьи в моем собственном блоге . НЛП вернул следующие термины с достаточным уровнем актуальности:

  • Роб Уилкерсон
  • изменение
  • 1024 * Гит *

Теперь я хочу поместить эти термины в налог / фольксономию без вмешательства человека. В этом случае термины «Git» и «Роб Уилкерсон» могут быть классифицированы - в процессе есть / будет дополнительное условие, которое удалит термины из структуры, если эти термины не генерируют достаточную тягу для отслеживания , С другой стороны, «изменение», вероятно, слишком расплывчато / неоднозначно, чтобы стоить того.

1 Ответ

0 голосов
/ 25 мая 2010

Похоже, Freebase , возможно, в сочетании с DBpedia , может быть именно тем, что я искал.

...