В поисках руководства. У меня есть требование получить содержание статьи из определенных источников, которые в двух словах будут использованы для анализа данных. Таким образом, мы должны получить последние статьи и сохранить их в нашей базе данных для последующей обработки.
Я не уверен, что действительно уверен в лучшем подходе. Наш код для текущего поиска новостей (от провайдера новостной ленты) запускается из C в UNIX. В основном используется CURL и анализ XML для хранения в базе данных.
Но мне нужно другое решение. Каждый веб-сайт отличается, очевидно. По сути, я просто хочу иметь работу cron, которая будет вызывать что-то, что будет по мере необходимости получать последние статьи с соответствующего веб-сайта.
Любые идеи приветствуются. Я также в настоящее время смотрю на AutomationAnywhere, возможно, как на быстрое решение, если оно работает для нас.
Спасибо!
Манодж