Как очистить такие сайты, как Hype Machine? - PullRequest
3 голосов
/ 01 августа 2010

Мне любопытно узнать, как это происходит с веб-сайтом (т. Е. Как это делается и т. Д.), В частности, что я хотел бы написать скрипт для выполнения задачи для сайта Hype Machine . На самом деле я студент бакалавриата по разработке программного обеспечения (4-й курс), однако мы не занимаемся веб-программированием, поэтому мое понимание Javascript / RESTFul API / All Web довольно ограничено, поскольку мы в основном сосредоточены на теории и клиентских приложениях. Любая помощь или указания с благодарностью.

Ответы [ 4 ]

4 голосов
/ 01 августа 2010

Первое, на что нужно обратить внимание, это то, предлагает ли сайт какие-либо структурированные данные, или вам нужно самостоятельно разобраться в HTML.Похоже, что RSS-лента последних песен .Если это то, что вы ищете, было бы неплохо начать там.

Вы можете использовать язык сценариев для загрузки канала и его анализа.Я использую python, но вы можете выбрать другой язык сценариев, если хотите.Вот несколько документов о том, как вы можете загрузить URL в python и проанализировать XML в python .

Еще одна вещь, о которой следует помнить, когда вы пишете программу, которая загружаетсайт или RSS-канал - это то, как часто запускается ваш скриптовый скрипт.Если вы будете запускать его постоянно, чтобы получать новые данные, как только они станут доступны, вы сильно нагрузите сайт, и есть большая вероятность, что они вас заблокируют.Старайтесь не запускать сценарий чаще, чем нужно.

1 голос
/ 01 августа 2010

Возможно, вы захотите проверить следующие книги:

"Веб-боты, пауки и скребки экрана: руководство по разработке интернет-агентов с помощью PHP / CURL" http://www.amazon.com/Webbots-Spiders-Screen-Scrapers-Developing/dp/1593271204

"Программирование HTTPРецепты для ботов C # "http://www.amazon.com/HTTP-Programming-Recipes-C-Bots/dp/0977320677

" Рецепты программирования HTTP для ботов Java "http://www.amazon.com/HTTP-Programming-Recipes-Java-Bots/dp/0977320669

0 голосов
/ 11 октября 2012

В Python есть модуль feedparser, расположенный на feedparser.org, который на самом деле обрабатывает RSS в различных вариантах и ​​ATOM в различных вариантах.Нет причин изобретать велосипед.

0 голосов
/ 01 августа 2010

Я считаю, что самое важное, что вы должны проанализировать, - это какую информацию вы хотите извлечь.Если вы хотите извлечь целые веб-сайты, как Google, вероятно, ваш лучший вариант - это проанализировать такие инструменты, как Nutch из Apache.org или решение flaptor http://ww.hounder.org Если вам нужно извлечь отдельные области в документах с неструктурированными данными - веб-сайты, документы, PDF- вероятно, вы можете расширить плагин Nutch для удовлетворения конкретных потребностей.nutch.apache.org

С другой стороны, если вам нужно извлечь определенные области текста или вырезки на сайте, где вы устанавливаете правила, используя DOM страницы, вероятно, то, что вам нужно проверить, больше относится к таким инструментам, как mozenda..com.с помощью этих инструментов вы сможете настроить правила извлечения, чтобы собирать определенную информацию на веб-сайте.Вы должны принять во внимание, что любые изменения на веб-странице приведут к ошибке вашего робота.

Наконец, если вы планируете разработать веб-сайт с использованием источников информации, вы можете приобрести информацию у таких компаний, как spinn3r.comесли они продают определенные ниши информации, готовые к употреблению.Вы сможете сэкономить много денег на инфраструктуре.Надеюсь, поможет!.Себастьяне.

...