Как я могу использовать Mechanize для очистки страницы состояния принтера HP? - PullRequest
1 голос
/ 05 февраля 2012

Страница состояния выглядит следующим образом:

http://h20000.www2.hp.com/bc/docs/support/SupportDocument/c00002742/c00004781.gif

Вы видите текст под заголовком «Состояние устройства»? Это то, что я хочу очистить.

При переходе на страницу состояния обновляется. Я вытащил это со страницы источника:

<form id="deviceStatusPage"   method="post" action="this.LCDispatcher?nav=hp.DeviceStatus">

Кажется, я не могу понять, что он на самом деле делает, поэтому трудно выработать хорошую стратегию очистки. Я вполне уверен, что решение будет тривиальным, но я не могу начать вообще.

Должен был сказать, что я играл с Mechanize и Beautiful Soup. Первый, похоже, достиг бы того, чего я хотел, но я не уверен, как.

1 Ответ

1 голос
/ 05 февраля 2012

Используйте очищающую библиотеку. BeautifulSoup отличный. mechanize и BeautifulSoup вместе делают очень полезные скребки.

...