руководство по соскобам пакетов Python - PullRequest
4 голосов
/ 24 ноября 2010

Я все еще новичок в Python, поэтому я надеюсь, что этот вопрос не является бессмысленным.

Чем больше я ищу решения для поиска в Интернете, тем больше я запутываюсь (не могу видеть лес, несмотря на то, что исследую множество деревьев ..)

Я читал документацию по ряду проектов, включая (но не ограничиваясь) SCRAPY механизировать spynner

но я не могу понять, какой молоток мне следует использовать ..

Есть конкретная страница, которую я пытаюсь сканировать (www.schooldigger.com) Он использует asp, и есть некоторый java-скрипт, который мне нужно подражать.

Я знаю, что с такой проблемой нелегко справиться, поэтому я бы с радостью посоветовался.

В дополнение к некоторому общему обсуждению доступных вариантов (и отношений между различными проектами, если это возможно), у меня есть пара конкретных вопросов

  1. При использовании scrapy, есть ли способ избежать определения 'элементов' для анализа и просто загрузить первые пару сотен страниц или около того? На самом деле я не хочу загружать целые сайты, но я бы хотел видеть, какие страницы загружаются при разработке скребка.

  2. механизировать, asp и javascript, пожалуйста, смотрите вопрос, который я разместил, но не видел ответов https://stackoverflow.com/questions/4249513/emulating-js-in-mechanize

  3. Почему бы не создать какую-либо утилиту (либо приложение TurboGears, либо плагин для браузера), которая позволяет пользователю выбирать ссылки и элементы для графического анализа? Все, что я предлагаю, - это какой-то графический интерфейс для анализа API. Я не знаю, обладаю ли я техническими знаниями для создания такого проекта, но я не понимаю, почему это невозможно, на самом деле, это кажется вполне осуществимым, учитывая то, что я знаю о Python. Может быть, какие-то отзывы о проблемах такого рода?

  4. Самое главное, все ли веб-сканеры созданы для конкретного сайта? Мне кажется, что я как бы заново изобретаю колесо в своем коде ... (но это, вероятно, потому что я не очень хорош в программировании)

  5. У кого-нибудь есть примеры полнофункциональных скребков? В документации много примеров (которые я изучал), но все они, кажется, сосредоточены на простоте, просто для демонстрации использования пакета, возможно, я бы выиграл от более подробного / сложного примера.

спасибо за ваши мысли.

1 Ответ

2 голосов
/ 25 ноября 2010

Для полноценного взаимодействия с браузером лучше всего использовать Selenium-RC

У него есть драйвер python, и вы можете настроить браузер для "проверки" практически любого сайта в Интернете

...