Мониторинг брендов общими словами - PullRequest
13 голосов
/ 15 февраля 2010

Допустим, вы должны следить за брендом "ONE" онлайн. Какие алгоритмы можно использовать для отделения страниц о бренде ONE от страниц, содержащих общее слово ONE?

Я думаю, может Байес мог бы работать, но есть ли другие способы сделать это?

Ответы [ 6 ]

5 голосов
/ 15 февраля 2010

Если это не совсем уникальное слово, я бы предложил следующий подход.

Давайте представим, что нашим ключевым словом является Java. Тогда есть как минимум 2 категории: о программировании и о туризме в Индонезии. Мы заинтересованы в первом.

Давайте возьмем небольшой текст о Java (может быть, из книг или из Википедии). Тогда давайте предположим некоторый порог (например, 0,7). Затем давайте сравним наш текст с разными страницами (один из самых быстрых способов - использовать алгоритм Классическая модель векторного пространства , вы можете реализовать его самостоятельно или найти его реализацию в Google). Затем сравните результаты с вашим порогом и отфильтруйте слабые результаты.


Об использовании алгоритма Байеса: это неплохой подход к ИМО. Но вы должны «научить» свой алгоритм очень тщательно, потому что несколько неверных входных данных могут испортить всю работу.

Позвольте мне объяснить. Вход для вашего алгоритма Байеса - это текст с вашим бренд-словом. Выводом является вероятность [0 .. 1], что ваш текст о вашем бренде, но не о чем-то еще. На практике этот алгоритм очень часто дает результаты около 0 или около 1 и редко возвращает значения от 0,2 до 0,8. Это означает, что алгоритм очень чувствителен к небольшим вариациям и 1 или 2 слова в тексте из 100 слов могут серьезно повлиять на результат.

4 голосов
/ 15 февраля 2010

Возможно, вы захотите связать бренд ONE с его продуктами, исполнительными директорами или соратниками в вашем мониторинге.

2 голосов
/ 25 февраля 2010

Вы ищете термин Изучение концепции или Извлечение концепции . Слово One встречается на многих страницах, но чаще всего оно относится к понятию единицы как количества. Лишь в редких случаях это относится к концепции ОДНОГО бренда. (Другой часто используемый пример - это СОЛНЦЕ, как на астральном объекте Солнце, или компания под названием Солнце).

Я знаю Ари Раппопорт провел много исследований по этой теме. Практически это сводится к чему-то вроде ответ mouviciel , но исследование Ари также о том, как вы можете автоматически сделать вывод о том, какие похожие слова вам нужно искать, чтобы отличить одно число от одного обозначения бренда.

1 голос
/ 01 марта 2010

Я бы предложил неконтролируемый подход к проблеме:

  1. Получите как можно больше документов, которые описывают «ОДИН» в правильном контексте, и создайте корпус.

  2. Найдите статистически невероятные фразы в этом корпусе против стандартного английского корпуса.

этот сайт дает хороший пример
http://sip.s -anand.net /? URL = http://en.wikipedia.org/wiki/Apple_Inc.

Как видите, термины, относящиеся к бренду, такие как ipod, powerpc и т. Д., Легко отфильтровываются.

После того, как вы извлечете их, вы можете создать оповещение Google или аналогичный ему (если оповещения Google слишком упрощены) с запросами типа "SIP" И "ONE" для мониторинга новых статей.

Конечно, учитывая, что этот подход не контролируется, он может быть не очень эффективным, но должен выполнять свою работу.

1 голос
/ 15 февраля 2010

Я подошел к вещам, рассматривая Википедию как гигантскую онтологию (где каждая гиперссылка - это отношение между исходным узлом и конечным узлом).

РЕДАКТИРОВАТЬ: один очень грубый алгоритм, с примером "Java":

  • Запрос "Java" в Википедии. среди другие, это должно дать вам (в минимум) остров и программирование язык.
  • Получить входные / выходные узлы этой базы страницы (из базовых страниц гиперссылки).
  • Теперь у вас есть небольшие наборы коррелированных слов.
  • Вычислите «расстояние» каждого набора до страницы и найдите минимальное из этих расстояний.

Расстояние, которое вы будете использовать, очень субъективно и должно быть немного подправлено, чтобы соответствовать вашим потребностям. У вас могут возникнуть проблемы с получением «ядра» каждой страницы, так как синтаксический анализ HTML будет основной проблемой.

0 голосов
/ 03 марта 2010

Другим подходом может быть поиск страницы в Каталоге Google , в котором есть «сеть, организованная по темам по категориям». Вы можете использовать информацию о категории для каждой страницы, чтобы решить, о чем она.

...