Существует ли API для определения наиболее распространенной ссылки в ряде твитов? - PullRequest
0 голосов
/ 27 февраля 2010

Существует ли API (Twitter API этого не предоставляет), который я могу использовать, например, для определения наиболее распространенных ссылок в 200 твитах. Я хочу получить последние 200 твитов, а затем определить, о чем говорят люди. Я уверен, что твиты будут содержать ссылки (потому что я буду просить Twitter API возвращать твиты, содержащие только ссылки), но я также буду хочу убедиться, что мой код поймет, что два URL одинаковы, даже если они имеют разные ссылки bit.ly.

Что я пытаюсь сделать (это может помочь вашим парням оказать некоторую помощь), так это то, что я пытаюсь определить, что является самым важным предметом, о котором говорят люди в этих 200 твиттах. Я понимаю, что люди могут говорить об одной и той же истории, но предоставляют разные ссылки, однако я не уверен, есть ли простой способ понять это.

Полезными будут ссылки на примеры, API, примеры кода и любые другие идеи:)

Если вам нужна дополнительная информация, чтобы объяснить это, пожалуйста, сообщите мне, и я отредактирую вопрос, включив в него дополнительную информацию

Ответы [ 3 ]

2 голосов
/ 27 февраля 2010

Не то, что я знаю, но вы можете сделать это с помощью ..

  1. Найдите все ссылки в списке твитов, используя шаблон регулярных выражений.

  2. Используйте API поиска в Твиттере для поиска каждой ссылки. Количество результатов возвращается.

  3. Сортировка ссылок вручную по количеству возвращенных результатов.

0 голосов
/ 27 февраля 2010

Основываясь на том, что говорят другие, вы можете использовать поиск в Твиттере, чтобы без проблем получать твиты, и я не буду вдаваться в эту часть этого ответа.

Возможный маршрут для коротких ссылок:

Вы можете, например, перейти к bit.ly и создать собственную короткую ссылку для URL, который вы хотите отслеживать. Используя эту ссылку, если вы добавите + в конце URL, вы получите статистику ссылки. пример: http://bit.ly/tweelay+ Кроме того, bit.ly отслеживает другие короткие ссылки, которые указывают на тот же URL. Который вы могли бы затем использовать в своих поисках.

используя bit.ly / stats API , вы можете получить список сокращенных URL.

В зависимости от URL-адресов, которые вы пытаетесь отслеживать, у вас может быть доступ к журналам рефералов. (т. е. ваш собственный веб-сайт). Используя свой журнал рефералов, вы также сможете найти дополнительные короткие URL-адреса, которые можно использовать для поиска.

0 голосов
/ 27 февраля 2010

По сути, вы можете получить это из API, сначала получить последнюю общедоступную временную шкалу (это будет 100 твитов, если вам нужно 200, тогда вам нужно запросить курсор и создать цикл, который проверяет, является ли значение next_cursor больше 0 ), а затем создайте паука, который определяет релевантность.

http://api.twitter.com/1/statuses/public_timeline.???

где ??? является json, xml, rss или atom

Если вы хотите определить популярность слов, затем сбросьте весь текст в строку, а затем разбейте его на пробелы, знаки препинания и т. Д., Отбросьте не существительные, отсортируйте его и создайте словарную переменную со словами и количеством слова.

Если вы хотите определить популярность ссылок, то это тот же процесс, но с дополнительным шагом для выполнения веб-запроса по каждой ссылке, чтобы определить конечное назначение ссылки.

...