Question

Мне любопытно узнать, как это происходит с веб-сайтом (т. Е. Как это делается и т. Д.), В частности, что я хотел бы написать скрипт для выполнения задачи для сайта Hype Machine . На самом деле я студент бакалавриата по разработке программного обеспечения (4-й курс), однако мы не занимаемся веб-программированием, поэтому мое понимание Javascript / RESTFul API / All Web довольно ограничено, поскольку мы в основном сосредоточены на теории и клиентских приложениях. Любая помощь или указания с благодарностью.

Annie · Answer 1 · 01 августа 2010

Первое, на что нужно обратить внимание, это то, предлагает ли сайт какие-либо структурированные данные, или вам нужно самостоятельно разобраться в HTML.Похоже, что RSS-лента последних песен .Если это то, что вы ищете, было бы неплохо начать там.

Вы можете использовать язык сценариев для загрузки канала и его анализа.Я использую python, но вы можете выбрать другой язык сценариев, если хотите.Вот несколько документов о том, как вы можете загрузить URL в python и проанализировать XML в python .

Еще одна вещь, о которой следует помнить, когда вы пишете программу, которая загружаетсайт или RSS-канал - это то, как часто запускается ваш скриптовый скрипт.Если вы будете запускать его постоянно, чтобы получать новые данные, как только они станут доступны, вы сильно нагрузите сайт, и есть большая вероятность, что они вас заблокируют.Старайтесь не запускать сценарий чаще, чем нужно.

Box · Answer 2 · 01 августа 2010

Возможно, вы захотите проверить следующие книги:

"Веб-боты, пауки и скребки экрана: руководство по разработке интернет-агентов с помощью PHP / CURL" http://www.amazon.com/Webbots-Spiders-Screen-Scrapers-Developing/dp/1593271204

"Программирование HTTPРецепты для ботов C # "http://www.amazon.com/HTTP-Programming-Recipes-C-Bots/dp/0977320677

" Рецепты программирования HTTP для ботов Java "http://www.amazon.com/HTTP-Programming-Recipes-Java-Bots/dp/0977320669

hd1 · Answer 3 · 11 октября 2012

В Python есть модуль feedparser, расположенный на feedparser.org, который на самом деле обрабатывает RSS в различных вариантах и ATOM в различных вариантах.Нет причин изобретать велосипед.

s_h · Answer 4 · 01 августа 2010

Я считаю, что самое важное, что вы должны проанализировать, - это какую информацию вы хотите извлечь.Если вы хотите извлечь целые веб-сайты, как Google, вероятно, ваш лучший вариант - это проанализировать такие инструменты, как Nutch из Apache.org или решение flaptor http://ww.hounder.org Если вам нужно извлечь отдельные области в документах с неструктурированными данными - веб-сайты, документы, PDF- вероятно, вы можете расширить плагин Nutch для удовлетворения конкретных потребностей.nutch.apache.org

С другой стороны, если вам нужно извлечь определенные области текста или вырезки на сайте, где вы устанавливаете правила, используя DOM страницы, вероятно, то, что вам нужно проверить, больше относится к таким инструментам, как mozenda..com.с помощью этих инструментов вы сможете настроить правила извлечения, чтобы собирать определенную информацию на веб-сайте.Вы должны принять во внимание, что любые изменения на веб-странице приведут к ошибке вашего робота.

Наконец, если вы планируете разработать веб-сайт с использованием источников информации, вы можете приобрести информацию у таких компаний, как spinn3r.comесли они продают определенные ниши информации, готовые к употреблению.Вы сможете сэкономить много денег на инфраструктуре.Надеюсь, поможет!.Себастьяне.

Как очистить такие сайты, как Hype Machine?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как очистить такие сайты, как Hype Machine?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы