Делать вещи вручную
Если сообщения об ошибках генерируются автоматически, а список исключений за сообщениями не очень большой, вы можете просто захотеть иметь таблицу, которая напрямую сопоставляет каждое сообщение об ошибке type с людьми, которым это необходимо. быть уведомленным.
Это должно упростить точное отслеживание точно , кто / какие группы будет получать, какие типы сообщений, и обновлять маршрутизацию сообщений, если вы решите, что некоторые сообщения перенаправляются неправильно.
Как правило, небольшая доля типов ошибок составляет большую часть отчетов об ошибках. Например, Microsoft заметила, что 80% сбоев были вызваны 20% ошибок в их программном обеспечении. Таким образом, чтобы получить что-то полезное, вам даже не нужно начинать с полной таблицы, охватывающей каждый тип сообщения об ошибке. Вместо этого вы могли бы начать с простого списка, который сопоставляет наиболее распространенные ошибки с нужным человеком и направляет все остальное человеку для ручной маршрутизации. Каждый раз, когда ошибка маршрутизируется вручную, вы можете добавить запись в таблицу маршрутизации, чтобы в будущем ошибки такого типа обрабатывались автоматически.
Классификация документов
Если сообщения об ошибках не редактируются людьми, которые их отправляют, и вы не хотите использовать эту информацию при маршрутизации, я бы не рекомендовал рассматривать это как задачу классификации документов. Однако, если это то, что вы хотите сделать, вот список достаточно хороших пакетов для классификации документов документов, организованных по языку программирования:
Python - Для этого используется основанный на Python Набор естественных языков (NLTK) , см. Классификация документов раздел в свободном доступе NLTK книга .
Ruby - Если Ruby более важен для вас, вы можете использовать Classifier gem. Вот пример кода, который определяет , смешные или не смешные цитаты Family Guy .
C # - программисты C # могут использовать nBayes . На домашней странице проекта приведен пример кода для простого классификатора спама / не спама.
Java - у людей на Java есть Classifier4J , Weka , Lucene Mahout и, как упоминалось в adi92 Маллет .
Обучение правилам с Weka - Если вам нужны правила, Weka может представлять особый интерес, поскольку включает в себя ученика на основе набора правил . Вы найдете руководство по использованию Weka для классификации текста здесь .