Я все еще новичок в Python, поэтому я надеюсь, что этот вопрос не является бессмысленным.
Чем больше я ищу решения для поиска в Интернете, тем больше я запутываюсь (не могу видеть лес, несмотря на то, что исследую множество деревьев ..)
Я читал документацию по ряду проектов, включая (но не ограничиваясь)
SCRAPY
механизировать
spynner
но я не могу понять, какой молоток мне следует использовать ..
Есть конкретная страница, которую я пытаюсь сканировать (www.schooldigger.com)
Он использует asp, и есть некоторый java-скрипт, который мне нужно подражать.
Я знаю, что с такой проблемой нелегко справиться, поэтому я бы с радостью посоветовался.
В дополнение к некоторому общему обсуждению доступных вариантов (и отношений между различными проектами, если это возможно), у меня есть пара конкретных вопросов
При использовании scrapy, есть ли способ избежать определения 'элементов' для анализа и просто загрузить первые пару сотен страниц или около того? На самом деле я не хочу загружать целые сайты, но я бы хотел видеть, какие страницы загружаются при разработке скребка.
механизировать, asp и javascript, пожалуйста, смотрите вопрос, который я разместил, но не видел ответов
https://stackoverflow.com/questions/4249513/emulating-js-in-mechanize
Почему бы не создать какую-либо утилиту (либо приложение TurboGears, либо плагин для браузера), которая позволяет пользователю выбирать ссылки и элементы для графического анализа? Все, что я предлагаю, - это какой-то графический интерфейс для анализа API. Я не знаю, обладаю ли я техническими знаниями для создания такого проекта, но я не понимаю, почему это невозможно, на самом деле, это кажется вполне осуществимым, учитывая то, что я знаю о Python. Может быть, какие-то отзывы о проблемах такого рода?
Самое главное, все ли веб-сканеры созданы для конкретного сайта? Мне кажется, что я как бы заново изобретаю колесо в своем коде ... (но это, вероятно, потому что я не очень хорош в программировании)
У кого-нибудь есть примеры полнофункциональных скребков? В документации много примеров (которые я изучал), но все они, кажется, сосредоточены на простоте, просто для демонстрации использования пакета, возможно, я бы выиграл от более подробного / сложного примера.
спасибо за ваши мысли.