Классический подход:
- Соберите репрезентативную выборку входных текстов, каждый из которых помечен как связанный / не связанный.
- Разделите выборку на обучающие и тестовые наборы.
- Извлечь все термины во все документы учебного комплекта;назовите этот словарь, V .
- Для каждого документа в обучающем наборе, конвертируйте его в вектор логических значений, где i 'th-й элемент равен true / 1если в документе встречается i -ый термин в словаре.
- Подайте векторизованный обучающий набор в алгоритм обучения.
Теперь, чтобы классифицироватьдокумент, векторизовать его, как в шаге 4. и передать его классификатору, чтобы получить для него связанную / несвязанную метку.Сравните это с фактической этикеткой, чтобы увидеть, все ли в порядке.С помощью этого простого метода вы сможете получить точность не менее 80%.
Чтобы улучшить этот метод, замените логические значения на количество терминов, нормализованное по длине документа, или, что еще лучше, tf-idf баллов.