Question

У меня есть очень простой скрипт на python в scraperwiki:

import scraperwiki
import lxml.html

html = scraperwiki.scrape("http://www.westphillytools.org/toolsListing.php")
print html

Я еще не написал ничего, чтобы разобрать его ... сейчас я просто хочу HTML.

КогдаЯ запускаю его в режиме редактирования, он отлично работает.

Когда запускается запланированная очистка (или я запускаю ее вручную), она пропускает десятки (или даже сотни) строк.

Это очень маленькая веб-страница, поэтому перегрузка данными не должна быть проблемой.Есть идеи?

frabcus · Answer 1 · 07 марта 2012

В редакторе отдельные операторы печати свернуты в одну строку для отображения. Вы можете нажать «еще ...» в консоли редактора, чтобы просмотреть весь лот.

Когда запускается по расписанию, он просто выводится точно так же, как в любой консоли. Поэтому, если в HTML есть возврат каретки, вы получите много строк вывода.

Чтобы уменьшить объем хранимой продукции, мы усекаем большие выходные данные из запланированных прогонов. Вот где вы видели «[53 строки, 159000 символов опущены]».

На самом деле не предполагается, что стандартный вывод из запланированных запусков предназначен для чего-либо кроме отладки. Вам нужно сохранить данные в хранилище данных, которое вы хотите использовать.

Marcin · Answer 2 · 07 марта 2012

Похоже, что данные есть в вашей переменной. Попробуйте напечатать строку за раз.

Зачем scraperwiki опускать строки из очищенного HTML?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Зачем scraperwiki опускать строки из очищенного HTML?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы