Соскоб с JQuery или Python? - PullRequest
       37

Соскоб с JQuery или Python?

0 голосов
/ 04 марта 2012

Допустим, я собираю несколько страниц (скажем, 1000) на веб-сайте. Я хочу знать, какой язык лучше всего использовать для очистки этих страниц - JavaScript или Python.

Кроме того, я слышал о том, что javascript-скребки работают быстрее (из-за нескольких запросов get), но я не уверен, как это реализовать - может кто-нибудь меня просветить?

Спасибо!

Ответы [ 2 ]

3 голосов
/ 04 марта 2012

Это только мое мнение, но я бы оценил их вот так

  • javascript может быть лучшим выбором, но только если у вас есть узел среда уже создана. Преимущество скребков JavaScript они могут интерпретировать js на страницах, которые вы просматриваете.
  • next - это трехсторонняя связь между perl python и ruby. Все они имеют механизированную библиотеку и делают xpath и regex разумным способом.
  • Внизу внизу php. В ней отсутствует библиотека для обработки файлов cookie, такая как mechanize (curl не очень хорош), а ее неуклюжие функции dom и regex делают ее плохим выбором для очистки.
0 голосов
/ 04 марта 2012

Если я правильно понял ваш вопрос, вы не пытаетесь создать веб-приложение (на стороне клиента или сервера), а скорее автономное приложение, которое просто запрашивает и загружает страницы из Интернета.

Вы можете написать отдельное приложение на JavaScript, но это не распространено.Основное использование JavaScript предназначено для кода, который будет выполняться в веб-браузере пользователя.Для автономных приложений Python - лучший выбор.И он имеет очень хорошую поддержку (в виде urllib2 и связанных с ним библиотек) для таких задач, как очистка веб-страниц.

Конечно, если ваша задача очистки относительно проста, вам может быть лучше использовать wget.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...