Question

как новостные агентства, такие как новости Google, автоматически классифицируют и ранжируют документы по возникающим темам, таким как «бюджет Обамы на 2011 год»?

У меня есть куча статей, помеченных данными о бейсболе, такими как имена игроков и их релевантность статье (спасибо, opencalais), и я хотел бы создать интерфейс в стиле новостей Google, который ранжирует и отображает новые сообщения по мере их поступления. особенно новые темы. Я полагаю, что наивный байесовский классификатор можно обучить с некоторыми статическими категориями, но это не позволяет отслеживать тенденции типа «этот игрок был продан только этой команде, эти другие игроки также были вовлечены».

mjv · Answer 1 · 02 февраля 2010

Без сомнения, В Новостях Google могут использоваться другие приемы (или даже их комбинации), но один относительно дешевый прием в вычислительном отношении, позволяющий вывести темы из свободного текста, использовал бы понятие НЛП, что слово приобретает смысл только тогда, когда оно связано с другими словами .
Алгоритм, позволяющий обнаруживать новые категории тем из нескольких документов, можно изложить следующим образом:

POS (часть речи) тег текста
Мы, вероятно, хотим больше сосредоточиться на существительных и, возможно, еще больше на именованных сущностях (таких как Обама или Новая Англия )
Нормализация текста
В частности, заменить слова с перегибом их общим основанием. Может быть, даже заменить некоторые прилагательные соответствующим именованным субъектом (например, Parisian ==> Paris, legal ==> law)
Также удалите шумовые слова и шумовые выражения.
определить некоторые слова из списка поддерживаемых вручную "текущих / повторяющихся горячих слов" (Суперкубок, Выборы, скандал ...)
Это можно использовать на последующих этапах, чтобы придать больший вес некоторым N-граммам
Перечислите все N-граммы, найденные в каждом документе (где N равно 1, скажем, 4 или 5)
Обязательно подсчитайте отдельно количество вхождений каждого N-грамма в данный документ и количество документов, которые ссылаются на данный N-грамм
Наиболее часто цитируемые N-граммы (то есть те, которые цитируются в большинстве документов), вероятно, являются темами.
Укажите существующие темы (из списка известных тем)
[опционально] Просмотр новых тем вручную

Этот общий рецепт также может быть изменен для использования других атрибутов документов и текста в них. Например, происхождение документа (скажем, cnn / sports или cnn / policy ...) может использоваться для выбора предметных лексиконов. Другой пример: процесс может более или менее сильно выделить слова / выражения из заголовка документа (или других областей текста с определенной разметкой).

Tristan · Answer 2 · 02 февраля 2010

Основные алгоритмы Новостей Google были опубликованы в научной литературе исследователями Google:

слепая классификация новых тенденций в поступающих данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

слепая классификация новых тенденций в поступающих данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы