Я работаю над процессом, который будет выполнять обработку естественного языка (NLP) на одном - и, возможно, на нескольких - наших сайтах с богатым контентом. Что я хотел бы сделать после завершения НЛП, так это автоматически организовать выходные данные (обычно набор терминов, которые вы можете рассматривать как теги с учетом распространенности этой метафоры) в некую стандартную или общепринятую организационную структуру.
В идеальном мире мне бы очень хотелось, чтобы это происходило из концепции фолксономии (в отличие от таксономии), поскольку конечной целью является нацеливание / обращение к реальным людям, а не к «экспертам в области», но я Я открыт для идей и лучших практик. Для очевидной цели масштабируемости, я хотел бы автоматизировать заполнение этой налоговой / фольксономии так, чтобы «какой-то парень» в команде / организации не отвечал за просмотр набора слов (с контекстом или без) и произвольно уточнение контекстуальных компонентов дерева.
У меня есть несколько идей для этого, которые требуют некоторых исследований, чтобы установить жизнеспособность, но у меня практически нет практического опыта с такими вещами, поэтому идеи действительно сводятся к тому, что я придумал, что может сыграть определенную роль в достижении задание. Представляя, что у других гораздо больше опыта в подобных вещах, я надеюсь, что смогу встать на твои плечи.
Спасибо за ваши мысли и идеи.
Практический пример
Я запустил НЛП против статьи в моем собственном блоге . НЛП вернул следующие термины с достаточным уровнем актуальности:
- Роб Уилкерсон
- изменение
- 1024 * Гит *
Теперь я хочу поместить эти термины в налог / фольксономию без вмешательства человека. В этом случае термины «Git» и «Роб Уилкерсон» могут быть классифицированы - в процессе есть / будет дополнительное условие, которое удалит термины из структуры, если эти термины не генерируют достаточную тягу для отслеживания , С другой стороны, «изменение», вероятно, слишком расплывчато / неоднозначно, чтобы стоить того.