(пост новичка, извинения и благодарность!)
Моя цель - создать небольшое приложение, которое отслеживает и анализирует набор сообщений блогов по исходящим ссылкам, поэтому я могу:
- Отображение самых популярных статей среди блогов в одном фрейме; и
- Для данной статьи, на которую есть ссылки, отобразите сообщения (в моей блогосфере), которые ссылаются на нее.
Пока что моя идея заключается в использовании:
- Python (с Django или каким-то подобным интерфейсом)
- Feedparser для чтения каналов и извлечения ссылок из сообщений
- URLparse
Большой вопрос: Я упускаю что-нибудь очевидное, что могло бы облегчить этот путь?
Меньший вопрос (который я пока не могу понять):
- Поскольку URL-адреса исходящих ссылок могут отличаться, даже если они указывают на одну и ту же статью (например, URL-адреса NYT и tinyURL), как я могу проверить URL-адрес, чтобы узнать, присутствует ли он в моем списке связанных элементов, помимо простого сравнения абсолютного URL-адреса?
Этот пост SO был полезен на высоком уровне, но анализ списков ссылок в стиле blogroll кажется намного проще, чем активное сравнение URL-адресов в сообщении, особенно с новостными сайтами, которые могут выполнять все виды забавные вещи в их URL.