Зачем scraperwiki опускать строки из очищенного HTML? - PullRequest
1 голос
/ 07 марта 2012

У меня есть очень простой скрипт на python в scraperwiki:

import scraperwiki
import lxml.html

html = scraperwiki.scrape("http://www.westphillytools.org/toolsListing.php")
print html

Я еще не написал ничего, чтобы разобрать его ... сейчас я просто хочу HTML.

КогдаЯ запускаю его в режиме редактирования, он отлично работает.

Когда запускается запланированная очистка (или я запускаю ее вручную), она пропускает десятки (или даже сотни) строк.

Это очень маленькая веб-страница, поэтому перегрузка данными не должна быть проблемой.Есть идеи?

Ответы [ 2 ]

0 голосов
/ 07 марта 2012

В редакторе отдельные операторы печати свернуты в одну строку для отображения. Вы можете нажать «еще ...» в консоли редактора, чтобы просмотреть весь лот.

Когда запускается по расписанию, он просто выводится точно так же, как в любой консоли. Поэтому, если в HTML есть возврат каретки, вы получите много строк вывода.

Чтобы уменьшить объем хранимой продукции, мы усекаем большие выходные данные из запланированных прогонов. Вот где вы видели «[53 строки, 159000 символов опущены]».

На самом деле не предполагается, что стандартный вывод из запланированных запусков предназначен для чего-либо кроме отладки. Вам нужно сохранить данные в хранилище данных, которое вы хотите использовать.

0 голосов
/ 07 марта 2012

Похоже, что данные есть в вашей переменной. Попробуйте напечатать строку за раз.

...