PHP и Twitter | Создать индексный движок - PullRequest
0 голосов
/ 02 ноября 2009

Вот что я имею в виду:

1) Создайте службу, которая будет запускаться каждый час или около того, и искать твиты по определенным критериям

2) Мне также нужно отфильтровать мусор (движок индекса должен быть достаточно умным, что-то вроде службы защиты от спама)

Каковы лучшие стратегии / идеи для достижения этой цели?

PS

Есть идеи, если для твиттера уже создан антиспамовый движок?

Ответы [ 2 ]

1 голос
/ 02 ноября 2009

Ну, для начала, пожалуй, лучшее место для начала - это API Twitter ( 2-я ссылка от Google) и ваш поиск будет работать. Если ваш серверный стек имеет * nix убеждение, использование cron для планирования запроса wget / curl на вашу страницу поиска будет, вероятно, самой простой стратегией. К сожалению, мои знания о планировании задач Windows крайне отсутствуют, но я уверен, что есть более эффективные способы, чем использование хрустящего планировщика задач.

Наконец, для вашей фильтрации написание байесовского классификатора может быть излишним, поскольку могут быть службы, на которые вы можете подписаться, но ни одна из них не известна для Твиттера. Байесовские классификаторы встречаются довольно часто, и я уверен, что небольшое исследование вашей любимой поисковой системы должно привести либо к постоянному решению, либо, по крайней мере, к тому, как создать свой собственный. Имейте в виду, что спам относительно, поэтому вы должны обучить свой классификатор, который в начале занимает немного времени. И на самом деле PHP может быть не лучшим языком для этой задачи, но тем, что ваш crontab может периодически вызывать для обучения.

Я понимаю, что это очень высокий уровень, но ссылки должны быть достаточной отправной точкой, чтобы начать в правильном направлении.

0 голосов
/ 02 ноября 2009

вы можете захотеть посмотреть http://www.socialoomph.com. Они предлагают услугу, которая сделает то, что вы ищете.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...