Нужно извлечь контент из определенных источников новостей / блогов и т. Д. Стороннее программное обеспечение или создать собственное? - PullRequest
0 голосов
/ 22 октября 2010

В поисках руководства. У меня есть требование получить содержание статьи из определенных источников, которые в двух словах будут использованы для анализа данных. Таким образом, мы должны получить последние статьи и сохранить их в нашей базе данных для последующей обработки.

Я не уверен, что действительно уверен в лучшем подходе. Наш код для текущего поиска новостей (от провайдера новостной ленты) запускается из C в UNIX. В основном используется CURL и анализ XML для хранения в базе данных.

Но мне нужно другое решение. Каждый веб-сайт отличается, очевидно. По сути, я просто хочу иметь работу cron, которая будет вызывать что-то, что будет по мере необходимости получать последние статьи с соответствующего веб-сайта.

Любые идеи приветствуются. Я также в настоящее время смотрю на AutomationAnywhere, возможно, как на быстрое решение, если оно работает для нас.

Спасибо!

Манодж

Ответы [ 3 ]

0 голосов
/ 23 октября 2010

Взгляните на визуальный веб-скребок IRobotSoft.Это даст вам быстрый старт.

0 голосов
/ 26 октября 2010

Поскольку каждый веб-сайт отличается от других, потребуется много усилий, чтобы установить надежное решение для очистки.Простая альтернатива - найти канал RSS / Atom для каждого веб-сайта, чтобы вы могли извлечь содержимое статьи в едином формате.Если веб-сайт недоступен, можно пропустить или попробовать очистку.

0 голосов
/ 23 октября 2010

iMacros - хорошее решение для просмотра веб-страниц .

. Вы можете запустить iMacros для Firefox (бесплатно / с открытым исходным кодом) в Linux и управлять им через командная строка .

В Windows вы также можете использовать платное Scripting Edition , которое дает вам извлечение мастеров и поддержку автоматизации Flash и т. Д.

...