слепая классификация новых тенденций в поступающих данных - PullRequest
5 голосов
/ 02 февраля 2010

как новостные агентства, такие как новости Google, автоматически классифицируют и ранжируют документы по возникающим темам, таким как «бюджет Обамы на 2011 год»?

У меня есть куча статей, помеченных данными о бейсболе, такими как имена игроков и их релевантность статье (спасибо, opencalais), и я хотел бы создать интерфейс в стиле новостей Google, который ранжирует и отображает новые сообщения по мере их поступления. особенно новые темы. Я полагаю, что наивный байесовский классификатор можно обучить с некоторыми статическими категориями, но это не позволяет отслеживать тенденции типа «этот игрок был продан только этой команде, эти другие игроки также были вовлечены».

Ответы [ 2 ]

4 голосов
/ 02 февраля 2010

Без сомнения, В Новостях Google могут использоваться другие приемы (или даже их комбинации), но один относительно дешевый прием в вычислительном отношении, позволяющий вывести темы из свободного текста, использовал бы понятие НЛП, что слово приобретает смысл только тогда, когда оно связано с другими словами .
Алгоритм, позволяющий обнаруживать новые категории тем из нескольких документов, можно изложить следующим образом:

  • POS (часть речи) тег текста
    Мы, вероятно, хотим больше сосредоточиться на существительных и, возможно, еще больше на именованных сущностях (таких как Обама или Новая Англия )
  • Нормализация текста
    В частности, заменить слова с перегибом их общим основанием. Может быть, даже заменить некоторые прилагательные соответствующим именованным субъектом (например, Parisian ==> Paris, legal ==> law)
    Также удалите шумовые слова и шумовые выражения.
  • определить некоторые слова из списка поддерживаемых вручную "текущих / повторяющихся горячих слов" (Суперкубок, Выборы, скандал ...)
    Это можно использовать на последующих этапах, чтобы придать больший вес некоторым N-граммам
  • Перечислите все N-граммы, найденные в каждом документе (где N равно 1, скажем, 4 или 5)
    Обязательно подсчитайте отдельно количество вхождений каждого N-грамма в данный документ и количество документов, которые ссылаются на данный N-грамм
  • Наиболее часто цитируемые N-граммы (то есть те, которые цитируются в большинстве документов), вероятно, являются темами.
  • Укажите существующие темы (из списка известных тем)
  • [опционально] Просмотр новых тем вручную

Этот общий рецепт также может быть изменен для использования других атрибутов документов и текста в них. Например, происхождение документа (скажем, cnn / sports или cnn / policy ...) может использоваться для выбора предметных лексиконов. Другой пример: процесс может более или менее сильно выделить слова / выражения из заголовка документа (или других областей текста с определенной разметкой).

2 голосов
/ 02 февраля 2010

Основные алгоритмы Новостей Google были опубликованы в научной литературе исследователями Google:

...