Как реализовать сервис мониторинга социальных сетей / сайтов? - PullRequest
1 голос
/ 08 января 2011

Я хотел бы внедрить какую-то услугу, которую мои клиенты могут использовать, чтобы найти свою компанию на.блоги, форумы б.фейсбук, твиттер с.обзор сайтов

а.блоги, форумы Это может сделать только гусеничный робот, верно?Сканер ищет файл robots.txt на форуме / блоге и, по желанию, читает содержимое (и, конечно, ссылки) форума / блога.Но с чего начать?Могу ли я использовать набор сайтов, чтобы начать сканирование?Должен ли я заранее определить их или я могу сначала использовать другой поисковик?Например, поиск в Google этой компании, а затем сканирование поисковой выдачи?Законно?

б.facebook, twitter У них есть API, поэтому я не думаю, что это должно быть проблемой.

c.Обзор сайтов Я просмотрел TOS некоторых сайтов обзора, и они написали, что использование автоматизированного программного обеспечения для сканирования их сайтов запрещено.С другой стороны, сайты, которые имеют отношение ко мне, не запрещены в их robots.txt.Что здесь важно?

Любые другие советы приветствуются.

Заранее спасибо: -)

1 Ответ

1 голос
/ 08 января 2011

Честно говоря, самый простой способ сделать это - начать с поисковых систем. Все они имеют API-интерфейсы для автоматического поиска, что, вероятно, дало бы вам максимальную отдачу от вашего времени на возврат ссылок / упоминаний о продуктах или бренде вашего клиента.

Это не будет обрабатывать вещи за аутентификацией, только общедоступные вещи (конечно). Но это даст вам хорошую основу для начала. Оттуда вы можете (если хотите) использовать API или ботов, написанных на заказ, которым на сайтах предоставлены аутентичные кредиты, но, честно говоря, я думаю, что в этот момент вы упускаете основной вопрос, я думаю.

Является ли основной вопрос "где мы упоминаемся?" или основной вопрос действительно ... "Какие сайты получают трафик для нас?" В большинстве случаев это последнее, и в этом случае вы можете игнорировать все, что я сказал ранее, и просто использовать Google Analytics или подобное программное обеспечение на сайте вашего клиента, чтобы определить, откуда идет трафик.

Редактировать Хорошо, так что если это то, о чем мы упоминали, я бы все равно начал с поисковыми системами, как указано API Google довольно прост и имеет SOAP-интерфейс, который вы можете использовать в качестве веб-ссылки, если хотите; пример

Re: просмотр сайтов. Если TOS сайта говорит, что вы не можете использовать автоматических ботов, то лучше не использовать автоматических ботов. Файл robots.txt не является юридически обязательным (это своего рода добрососедство), и поэтому я бы не стал использовать отсутствие исключения для разрешения. Некоторые рецензируемые сайты (более современные) могут запретить автоматическую очистку своего сайта, но они все равно могут публиковать RSS-каналы или каналы Atom или иметь какой-то другой API, который вы можете подключить, который стоит проверить.

...