Question

Допустим, вы должны следить за брендом "ONE" онлайн. Какие алгоритмы можно использовать для отделения страниц о бренде ONE от страниц, содержащих общее слово ONE?

Я думаю, может Байес мог бы работать, но есть ли другие способы сделать это?

Roman · Answer 1 · 15 февраля 2010

Если это не совсем уникальное слово, я бы предложил следующий подход.

Давайте представим, что нашим ключевым словом является Java. Тогда есть как минимум 2 категории: о программировании и о туризме в Индонезии. Мы заинтересованы в первом.

Давайте возьмем небольшой текст о Java (может быть, из книг или из Википедии). Тогда давайте предположим некоторый порог (например, 0,7). Затем давайте сравним наш текст с разными страницами (один из самых быстрых способов - использовать алгоритм Классическая модель векторного пространства , вы можете реализовать его самостоятельно или найти его реализацию в Google). Затем сравните результаты с вашим порогом и отфильтруйте слабые результаты.

Об использовании алгоритма Байеса: это неплохой подход к ИМО. Но вы должны «научить» свой алгоритм очень тщательно, потому что несколько неверных входных данных могут испортить всю работу.

Позвольте мне объяснить. Вход для вашего алгоритма Байеса - это текст с вашим бренд-словом. Выводом является вероятность [0 .. 1], что ваш текст о вашем бренде, но не о чем-то еще. На практике этот алгоритм очень часто дает результаты около 0 или около 1 и редко возвращает значения от 0,2 до 0,8. Это означает, что алгоритм очень чувствителен к небольшим вариациям и 1 или 2 слова в тексте из 100 слов могут серьезно повлиять на результат.

mouviciel · Answer 2 · 15 февраля 2010

Возможно, вы захотите связать бренд ONE с его продуктами, исполнительными директорами или соратниками в вашем мониторинге.

Ofri Raviv · Answer 3 · 25 февраля 2010

Вы ищете термин Изучение концепции или Извлечение концепции . Слово One встречается на многих страницах, но чаще всего оно относится к понятию единицы как количества. Лишь в редких случаях это относится к концепции ОДНОГО бренда. (Другой часто используемый пример - это СОЛНЦЕ, как на астральном объекте Солнце, или компания под названием Солнце).

Я знаю Ари Раппопорт провел много исследований по этой теме. Практически это сводится к чему-то вроде ответ mouviciel , но исследование Ари также о том, как вы можете автоматически сделать вывод о том, какие похожие слова вам нужно искать, чтобы отличить одно число от одного обозначения бренда.

Miguel A. Friginal · Answer 4 · 01 марта 2010

Я бы предложил неконтролируемый подход к проблеме:

Получите как можно больше документов, которые описывают «ОДИН» в правильном контексте, и создайте корпус.
Найдите статистически невероятные фразы в этом корпусе против стандартного английского корпуса.

этот сайт дает хороший пример
http://sip.s -anand.net /? URL = http://en.wikipedia.org/wiki/Apple_Inc.

Как видите, термины, относящиеся к бренду, такие как ipod, powerpc и т. Д., Легко отфильтровываются.

После того, как вы извлечете их, вы можете создать оповещение Google или аналогичный ему (если оповещения Google слишком упрощены) с запросами типа "SIP" И "ONE" для мониторинга новых статей.

Конечно, учитывая, что этот подход не контролируется, он может быть не очень эффективным, но должен выполнять свою работу.

Sylvestre Equy · Answer 5 · 15 февраля 2010

Я подошел к вещам, рассматривая Википедию как гигантскую онтологию (где каждая гиперссылка - это отношение между исходным узлом и конечным узлом).

РЕДАКТИРОВАТЬ: один очень грубый алгоритм, с примером "Java":

Запрос "Java" в Википедии. среди другие, это должно дать вам (в минимум) остров и программирование язык.
Получить входные / выходные узлы этой базы страницы (из базовых страниц гиперссылки).
Теперь у вас есть небольшие наборы коррелированных слов.
Вычислите «расстояние» каждого набора до страницы и найдите минимальное из этих расстояний.

Расстояние, которое вы будете использовать, очень субъективно и должно быть немного подправлено, чтобы соответствовать вашим потребностям. У вас могут возникнуть проблемы с получением «ядра» каждой страницы, так как синтаксический анализ HTML будет основной проблемой.

Daniel Situnayake · Answer 6 · 03 марта 2010

Другим подходом может быть поиск страницы в Каталоге Google , в котором есть «сеть, организованная по темам по категориям». Вы можете использовать информацию о категории для каждой страницы, чтобы решить, о чем она.

Мониторинг брендов общими словами

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Мониторинг брендов общими словами

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы