Я только что удалил кучу данных Google Buzz и хочу узнать, какие сообщения Buzz ссылаются на те же новостные статьи. Проблема заключается в том, что многие ссылки в этих сообщениях были изменены с помощью укороченных URL-адресов, поэтому вполне возможно, что многие сокращенные URL-адреса фактически указывают на одну и ту же новостную статью.
Учитывая, что у меня есть миллионы постов, что является наиболее эффективным способом (желательно на python) для меня
- определить, является ли URL сокращенным URL-адресом (из любого из множества сервисов сокращения URL-адресов или, по крайней мере, из самых крупных)
- Найдите «назначение» сокращенного URL-адреса, то есть длинную оригинальную версию сокращенного URL-адреса.
Кто-нибудь знает, накладывает ли сокращающие URL-адрес строгие ограничения на количество запросов? Если я уменьшу это значение до 100 в секунду (все приходят с одного и того же IP-адреса), как вы думаете, у меня возникнут проблемы?
ОБНОВЛЕНИЕ И ПРЕДВАРИТЕЛЬНОЕ РЕШЕНИЕ
Ответы привели к следующему простому решению
import urllib2
response = urllib2.urlopen("http://bit.ly/AoifeMcL_ID3") # Some shortened url
url_destination = response.url
Вот и все!