Разбор сообщений в блоге для общих ссылок - PullRequest
0 голосов
/ 12 сентября 2011

(пост новичка, извинения и благодарность!)

Моя цель - создать небольшое приложение, которое отслеживает и анализирует набор сообщений блогов по исходящим ссылкам, поэтому я могу:

  1. Отображение самых популярных статей среди блогов в одном фрейме; и
  2. Для данной статьи, на которую есть ссылки, отобразите сообщения (в моей блогосфере), которые ссылаются на нее.

Пока что моя идея заключается в использовании:
- Python (с Django или каким-то подобным интерфейсом)
- Feedparser для чтения каналов и извлечения ссылок из сообщений
- URLparse

Большой вопрос: Я упускаю что-нибудь очевидное, что могло бы облегчить этот путь?

Меньший вопрос (который я пока не могу понять):
- Поскольку URL-адреса исходящих ссылок могут отличаться, даже если они указывают на одну и ту же статью (например, URL-адреса NYT и tinyURL), как я могу проверить URL-адрес, чтобы узнать, присутствует ли он в моем списке связанных элементов, помимо простого сравнения абсолютного URL-адреса?

Этот пост SO был полезен на высоком уровне, но анализ списков ссылок в стиле blogroll кажется намного проще, чем активное сравнение URL-адресов в сообщении, особенно с новостными сайтами, которые могут выполнять все виды забавные вещи в их URL.

1 Ответ

1 голос
/ 12 сентября 2011

Я бы пошел на ту же настройку. Вам, вероятно, понадобится lxml для анализа и манипулирования содержимым публикации HTML (извлеките теги).

...